システムからダウンロードしたデータや、アンケートの集計結果を見ていると、一部のセルが空っぽ(空白)になっていることがよくありますよね。
集計の都合上、この空白セルにすべて数字の0を入れたり、不明という文字を入れたりする作業は、手作業だと意外と面倒です。
この記事では、KNIMEを使ってデータの中の空白を一瞬で綺麗に処理するMissing Valueノードの使い方を解説します。
Missing Valueノードとは?
KNIMEでデータを読み込んだ時、空白になっているセルには赤文字で「?」という記号が表示されます。これを欠損値と呼びます。
Missing Valueノードは、この「?」マークを見つけ出し、あらかじめ決めておいたルールに従って自動で穴埋めをしてくれる非常に便利な機能を持っています。
事前に基本的な操作手順でお伝えした通り、データを読み込むノード(Excel Readerなど)を用意してから進めましょう。
ノードの設定手順と空白の埋め方
- キャンバスに配置する:画面左側の+ボタンを押し、検索窓にMissing Valueと入力してキャンバスに配置します。
- 線をつなぐ:データを読み込んでいるノードの右側のポートから線を伸ばし、Missing Valueにつなぎます。
- 設定画面を開く:ノードをダブルクリックして設定画面を開きます。
設定画面は大きく2つのタブに分かれていますが、よく使うのはDefaultというタブです。
ここでは、データの種類(数値なのか、文字なのか)ごとに、空白をどう処理するかを一括で指定できます。
数値データの空白を処理する場合
Number(数値)の項目を見ます。プルダウンメニューからFix Valueを選ぶと、その下に数字を入力するボックスが現れます。
ここに「0」と入力すれば、数値データの中にある空白はすべてゼロに置き換わります。
文字データの空白を処理する場合
String(文字)の項目を見ます。同じようにFix Valueを選び、ボックスに「未入力」や「不明」といった文字を入れれば、一括で文字が埋まります。
空白を含む行ごと削除するテクニック
空白を埋めるのではなく、データが欠けている不完全な行は集計から除外したい場合もあります。
その時は、プルダウンメニューからRemove Rowを選びます。これで、一つでも空白がある行は綺麗に削除されます。
設定が終わったらOKを押し、ノードに乗せたマウスから緑色の実行ボタンをクリックします。
このノードを通すだけでデータが隙間なく美しく整うため、データクレンジングの基礎として必ず覚えておきたい必須テクニックです。
