企業が営業活動を行ったり、システムの改善を行ったりすると、システム上に重複したデータが生まれます。「名寄せ」とは、データの重複をなくし、データを正確に保持するための技術です。 「顧客データが大量にあって手がつけられない」「顧客データの重複をなくしたい」「M&Aをしたので、データの統合がしたい」などの悩みを解決することができます。 名寄せを行うことで、正確な顧客データ分析、データ利用の効率化、リスク管理のためのデータクレンジング処理等が可能です。 一般的には、辞書を用いた「完全一致」のマッチング結果で重複を判定します。 しかし、辞書を使った「完全一致方式」の名寄せでは、結果の精度に限界が生じます。例えば、入力ミスの多いデータでは、名寄せは上手く機能しません。また、辞書に依存するため、特殊なデータ項目には対応することが難しくなります。
処理フロー
名寄せ前データの項目に合わせて、取り込み様式をカスタマイズします。
データ項目の正規化処理をします。(正規化方針はお打合せ)
名寄せエンジンが重複度の算出(スコアリング)します。
名寄せ結果から、3つのグループに仕分けします。そのためのしきい値も検証し、確定します。
名寄せ結果から、名寄せエンジンのパラメータをチューニングします。
再度処理①~⑤を実施し、再度チューニングし、最適なパラメータを決定します。
※重複度とは、レーベンシュタイン距離(後述)をもとに、弊社独自のアルゴリズムにより重み付けを行い、項目同士の類似性を100点満点で評価したもの
[3] 名寄せの「機能」
正規化処理
半角全角やハイフン等の表記ゆれに左右されずに名寄せ処理を行う事ができます。
重み付け
名前、住所、電話番号など、複数のデータそれぞれに重み付けをすることが可能です。
重複度判定
重複度の値がしきい値以上である場合、削除処理を行い、削除されたレコードは重複リストに書き出されます。
編集距離計算
各カラムに対して編集距離を計算し、類似度判定を行います。
重複度計算
各カラムごとに、重複度の重みづけが可能です。
名寄せサービスのデモをASPでご提供しています。サンプルデータもご用意しております。
お問い合わせは、下記ボタンよりお問い合わせください。
世界を革新する挑戦者に、成功を支援する会社
情報通信業