【英語】 Data Cleaning

【読み】 データクレンジング

用語解説

データクレンジングとは、重複・誤記・表記の揺れなどを検知し、削除・修正・正規化などによりデータの品質を高めることである。

■詳細説明
データクレンジングとは
データクレンジングは、データの前処理工程の一部である。データクレンジングは、データクリーニングともいい、その名前の通り「データを綺麗にする」ことを指す。

例えば、B to B企業で顧客の大まかなニーズをつかむために、似たような傾向を示す顧客をいくつかのグループに分類する(クラスタリングする)ことを考える。もし様々な担当者が同じ法人顧客について、「(株)アイズファクトリー」「株式会社 i’s FACTORY」などと異なった名称でデータベースに入力登録していたら、同じ法人顧客でひとつのクラスタが膨らんでしまったり、又は同じ法人顧客なのに別のクラスタに分類されてしまったりし、とてもではないが正しい意思決定をすることは難しいだろう。これは表記揺れという問題で、データクレンジングで解決できる。

前処理工程全般に言えることではあるが、「Garbage In, Garbage Out(ゴミを入れたら、ゴミが出てくる)」という機械学習における金言があるように、どんなにアルゴリズムが素晴らしくとも、品質の悪い不完全なデータを入力すると、品質の悪い不完全な機械学習済みモデルが出力されてしまうため、データクレンジングは非常に重要な作業工程である。

データクレンジングの対象と対応方法
欠損値、表記揺れ、異常値などは、データ分析を行う過程で課題となることが多いため、データクレンジングしたい代表的な項目である。
1.欠損値
欠損値は、そもそもそのデータが存在しない、又は存在するが観測できなかった(例えば、データ収集過程で問題が発生したなど)場合に生じる。

・欠損値の取り扱い方
①削除する
ひとえに「削除する」といっても、場合に応じて仕方が異なる
例)
データの分布を確認する場合 → 欠損データを削除(無視)して集計
クラスタリング等で他の項目との関連性も考慮して機械学習アルゴリズムを動かす
→ レコードごと削除
ほとんどが欠損の項目 → その項目自体を削除、等
②代表値(平均値、中央値、最頻値など)で穴埋めする

欠損値の取り扱い方には画一的な正解はなく、データの種類や性質、プロジェクトの目的等によっても変わってくる。

2.表記揺れ
表記揺れとは、ある単語について、同じ意味にも関わらず、2通り以上の書き方をされることにより、表記に揺れが生じることを指す。
例)株式会社と(株)、Googleとグーグル、1000円と\1,000、等

・表記揺れの主な対応方法
①大文字/小文字や全角/半角の統一といった逐次的なもの
②送り仮名の表記ゆれ(例:「行う」と「行なう」)や文字種による表記揺れ(例:「猫」と「ねこ」と「ネコ」)等に対するヨミによる統一(形態素解析)
③正しい名称と表記揺れの名称の対応表による統一

また、例えば解熱鎮痛剤の成分であるアスピリンはアセチルサリチル酸と同じ意味であるが、この例のように分析対象となるデータの業界知識がなければ表記揺れかどうか判断のつかないものもあるため、外部顧客を含んだ、プロジェクト内での十分なコミュニケーションが求められることもあるだろう。

3.異常値
異常値は外れ値の一種であり、外れ値とは他の値から大きく外れた値のことを指す。
外れ値には「本当の外れ値」と「測定ミス、誤記入、誤入力等により生じた外れ値」があり、後者を異常値と呼ぶ。
例えば、何らかのアンケートで年齢欄に130歳などと書かれていたら、これは明らかに誤記入等による異常値であろう。
このように明確に測定ミス、誤記入、誤入力とわかるデータであれば、欠損値の場合と同様に削除又は穴埋めすればよいが、実際には外れ値と異常値の区別のつかないデータも多い。

・代表的な外れ値検知手法
①確率分布に基づく方法
データが特定の確率分布(正規分布など)に従うと仮定し、その分布の端にあるデータを外れ値と看做す手法
②近傍距離に基づく方法
データ間の距離を計算し、周囲に存在するデータの個数が少ないデータや最も近いデータまでの距離が遠いデータなどを、外れ値と看做す手法
③クラスタリングに基づく方法
データをクラスタリングし、データ数の少ないクラスタを外れ値の集合と看做す、又はクラスタごとにまた別の外れ値検知手法(例えば上記の確率分布や近傍距離に基づく方法)を適用することで外れ値検知の精度向上を狙う手法

データクレンジングの自動化
データの活用の一環として、「データクレンジング」は、データマイニングに必要となるデータの前処理工程にあたり、その後の分析を行うための必須工程となる。データクレンジングに対する必要な処理は、「型判定」、「正規化」、「欠損値処理」、「名寄せ・重複処理」の4つがあって、データクレンジングがかかる工数は膨大で、データマイニングの作業の8割を占めるともいわれている。データマイニング(AI)の領域に新たに取り組むには、データの整備またはデータクレンジングにあたる、利用しやすいツールの導入が求められる。
例えば、解析プラットフォーム「bodais」では、 「型判定」「正規化」「欠損値処理」をはじめとする「データクレンジング」を自動化し、さらにデータマイニングやレポーティングの工程まで自動で行うことを可能にしている。 数値化した分析用のデータテーブルを準備すれば、「bodais」にデータをアップロードするだけで自動的に「データ統合」「欠損処理」が適切に行われ、目的とする分析結果のレポートを得ることができる。

■関連記事
【1】データクレンジングを自動化、AIによるスピーディーなデータ活用
https://bodais.com/info/white-paper/ebook009/#
ビジネスにデータを活用したいというニーズが増えており、BIツールや解析ツールも様々なものが売り出されている。しかし、ツールを使いこなし、ビジネスに活用する前の段階から課題を抱えるケースが多いのも事実で、BIツールや解析ツールに取り込むデータの整備の複雑さがその原因となっている。この記事では、さまざまなツール活用の前提となる、データ整備の具体的なプロセスについて紹介されている。述べられている観点は以下の通りである。
1.データを活用したいけど難しい… その原因は?
2.様々なデータ活用を可能にする「データクレンジング」
3.「データクレンジング」を自動化!データ活用の工数を大幅に削減
データクレンジング 図1

【2】テキストクレンジングの難しさ
https://bodais-datascientist.blogspot.com/2017/08/blog-post.html
 テキストマイニングでは、データが言葉(表現や表記)の揺れにより表面上は異なって見えるため、類似した言葉でもコード化されたデータでは全く異なる扱いを受けてしまうことが問題となる。この問題を解消するために事前処理として表記統一などを行うが、例外処理が数多く存在し、実際に作業する時には想像以上の例外処理に直面することが多い:
(記事引用)「公な報告書などテキストマイニングをするテキストの内容によってはクレンジングの仕様を細かく決める必要があります。過去の個別プロジェクトではこういったクレンジング仕様を決めるだけで数週間を要しました。」
データクレンジング 図2

【3】教師なし異常検知に関する手法の紹介
https://bodais-datascientist.blogspot.com/2021/07/blog-post.html
 データクレンジングの対象となる異常値の処理に関する異常検知の手法がたくさんあり、教師なし異常検知でよく用いられる7つの手法を紹介した。:
(記事引用)「教師なし異常検知手法に関して、多くの応用例があり、実際のビジネスでも多く活用・導入されています。例えば、クレジットカードの不正取引検知、インタネット上でのサイバー攻撃検知、製造物生成時における異常物の発見などです。」
データクレンジング 図3

関連キーワード

関連事例


運営会社へのお問い合わせは、下記ボタンよりお問い合わせください。

運営会社へのお問い合わせはこちら 

bodais

bodais

DX総合支援サイト

運営会社