PR

データ分析における外れ値とは?意味とエクセルでの処理方法

この記事は約2分で読めます。

売上の平均単価を出したり、アンケートの集計結果を見たりした時、「どう考えてもこの数字はおかしい」という極端なデータが混ざっていた経験はありませんか。

この記事では、データ分析の精度を狂わせる厄介な存在である「外れ値」の意味と、それを見つけて正しく処理する方法を解説します。

外れ値(異常値)とは何か

外れ値とは、他の多くのデータからポツンと離れた、極端に大きすぎる、あるいは小さすぎる数値のことです。

たとえば、5人の顧客の購入金額がそれぞれ、1千円、2千円、1.5千円、2千円、そして100万円だったとします。
これを単純にエクセルで平均すると約20万円になってしまい、「うちのお客様は平均20万円も買ってくれる」という完全に間違った分析結果を生み出してしまいます。
このように、一つでも極端な外れ値が混ざっていると、全体の平均値が大きく引っ張られてしまうという性質があります。

外れ値が発生する原因

外れ値が生まれる原因の多くは、人間の入力ミスです。
アンケートの年齢欄に間違えて電話番号を入力してしまったり、システムの仕様変更で一時的に空白セルにゼロが埋められていたりと、様々な要因が考えられます。

また、大口の特別注文などのように、入力ミスではなく実際に起きた正しい数値であっても、通常の傾向を分析する際には除外した方が良いケースもあります。

外れ値の正しい処理とツールの活用

正しい分析を行うためには、データ前処理の段階で外れ値を見つけ出し、取り除くか別の数字に置き換える必要があります。

エクセルで一つずつデータを目で見て探すのは大変ですが、KNIMEなどのデータ処理ツールを使えば、この作業を自動化できます。
たとえば、Row Filterノードを使って条件抽出を行い、「金額が10万円以上の行は異常値として別のファイルに弾き出す」というルールを設定しておきます。

あるいは、特定のノードを使って、上位1%と下位1%の極端なデータを自動的に削ぎ落とすといった統計的な処理も簡単に行えます。
出てきた集計結果を鵜呑みにせず、「この中に外れ値は混ざっていないか」と疑う視点を持つことが、データに強い事務職になるための大切なステップです。

【独学派のあなたへ】まずは「基礎」を固めたいなら、この一冊。

当サイトの記事で「点」の知識は増えますが、「線」として体系的に学び直したいなら、『ネイティブが最初に覚える英会話フレーズ300』が最適です。ネイティブの子どもが覚える順で、本当に使うフレーズだけを効率的にインプットできます。

【本気で変えたいあなたへ】英語で「夢を叶える」なら、プロと伴走。

「英語を学んだその先で、キャリアやライフスタイルを変えたい!」そんな高い目標を持つなら、独学には限界があります。女性専用コーチング【スターズ】は、あなたの目標に合わせて学習・キャリア・マインドまで徹底サポート。挫折させない環境で、英語を「使って叶える」ステージへ導いてくれます。

データ分析の基礎
タイトルとURLをコピーしました