PR

KNIMEで重複データを削除!Duplicate Row Filterの使い方

この記事は約2分で読めます。

顧客リストや商品の売上データなどをまとめていると、同じ人の名前や同じデータが2回以上入力されてしまっていることがあります。
エクセルであればデータタブから重複の削除をクリックして対応しますが、毎月同じ作業を繰り返すのは面倒ですよね。

この記事では、KNIMEで重複データを一瞬で綺麗に消し去るDuplicate Row Filterノードの使い方を解説します。

Duplicate Row Filterノードとは?

KNIMEで重複データの削除を担当するのが、Duplicate Row Filterというノードです。
このノードを使えば、エクセルと全く同じように特定の列(例えば顧客IDやメールアドレス)を基準にして、ダブっている行を見つけ出し、自動的に一つだけを残して整理してくれます。

ノードの設定手順(Modern UI版)

それでは、最新のModern UI画面での操作手順を見ていきましょう。
KNIMEの基本的な使い方を思い出しながら進めてみてください。

  • キャンバスに配置する:画面左側の+ボタンを押し、検索窓にDuplicate Row Filterと入力してキャンバスに配置します。
  • 線をつなぐ:データを読み込んでいるノードの右側のポートから線を伸ばし、Duplicate Row Filterにつなぎます。
  • 設定画面を開く:ノードをダブルクリックして設定画面を開きます。
  • 重複の基準を選ぶ:設定画面にデータに含まれる列の名前が並んでいます。重複の判断基準にしたい列(顧客IDなど)を選びます。
  • 実行ボタンを押す:設定画面のOKを押し、ノードの上にマウスを乗せると出てくる緑色の実行ボタンをクリックします。

最新のデータだけを残すテクニック

重複データを削除する際、古いデータと新しいデータが混ざっている場合、どちらを残すかが重要になります。
Duplicate Row Filterの設定画面にあるAdvancedという項目を開くと、一番上のデータを残すか、一番下のデータを残すかを選ぶことができます。

事前にデータを日付順に並べ替えておき、一番上を残す設定にすれば、常に最新の顧客情報だけを綺麗に残すことが可能です。
この機能を使えば、面倒な名寄せ作業もあっという間に終わります。

別の表を紐付けるJoinerノードと組み合わせることで、さらに高度なデータ整理が実現できますので、ぜひ試してみてくださいね。

【独学派のあなたへ】まずは「基礎」を固めたいなら、この一冊。

当サイトの記事で「点」の知識は増えますが、「線」として体系的に学び直したいなら、『ネイティブが最初に覚える英会話フレーズ300』が最適です。ネイティブの子どもが覚える順で、本当に使うフレーズだけを効率的にインプットできます。

【本気で変えたいあなたへ】英語で「夢を叶える」なら、プロと伴走。

「英語を学んだその先で、キャリアやライフスタイルを変えたい!」そんな高い目標を持つなら、独学には限界があります。女性専用コーチング【スターズ】は、あなたの目標に合わせて学習・キャリア・マインドまで徹底サポート。挫折させない環境で、英語を「使って叶える」ステージへ導いてくれます。

KNIMEレシピ集
タイトルとURLをコピーしました