bodais 自動進化型データ解析
クラウドプラットフォーム

03-5259-9004 受付:平日10:00~18:00 

自然言語処理/テキストマイニング(名寄せ)

名寄せとは・・・

企業が営業活動を行ったり、システムの改善を行ったりすると、システム上に重複したデータが生まれます。「名寄せ」とは、データの重複をなくし、データを正確に保持するための技術です。

一般的には、辞書を用いた「完全一致」のマッチング結果で重複を判定します。 しかし、辞書を使った「完全一致方式」の名寄せでは、結果の精度に限界が生じます。例えば、入力ミスの多いデータでは、名寄せは上手く機能しません。また、辞書に依存するため、特殊なデータ項目には対応することが難しくなります。

アイズファクトリーの強み

アイズファクトリー「名寄せエンジン」の強み

(1)入力ミス・データの名寄せに強い
名寄せキー項目文字列の類似度を算出し、同一かどうかをスコア(確率)で判定します。入力ミス等の曖昧性への対応には不可欠の機能です。

(2)自由な名寄せ項目
辞書に依存しない類似度判定方式なので、住所、氏名、電話番号等の他にmm、特殊な商品名や識別番号等でも名寄せが可能です。

(3)名寄せ度合いを自由に調整可能
重複度を数値で計算するため、データの性質によって名寄せする・しないの閾値を自由に調整することができます。

名寄せの「機能」

■正規化処理
半角全角やハイフン等の表記ゆれに左右されずに名寄せ処理を行う事ができます。

■重み付け
名前、住所、電話番号など、複数のデータそれぞれに重み付けをすることが可能です。

■重複度判定
重複度の値がしきい値以上である場合、削除処理を行い、削除されたレコードは重複リストに書き出されます。

■編集距離計算
各カラムに対して編集距離を計算し、類似度判定を行います。

  • 編集距離とは2つ以上の文字列がどの程度異なっているかを示す数値です。
  • 空のカラムがある場合は、計算方法を変更し、適切な編集距離を算定します。

■重複度計算
各カラムごとに、重複度の重みづけが可能です。

  • 計算された各カラムの編集距離を文字列長の長い方のバイト数で規格化します。
  • 各カラムの重み比を設定し、重複度を計算いたします。
  • 削除処理を行い、削除されたレコードは重複リストに書き出されます。

名寄せの例

名寄せの例

名寄せ機能の詳細

項目 内容
正規化 住所、電話番号、フリガナ、氏名スペース削除、郵便番号の正規化。
例えば、漢数字⇔数字、半角⇔全角、丁目番地⇔- 等が行えます。
名寄せKey項目 名寄せに用いるKey項目を複数選択することができます。
基本の住所、氏名、電話番号のほかに、メールアドレスやフリガナ、郵便番号、会社名等、ご希望のものを設定可能です。
類似度算出 名寄せKey項目文字列の類似度を算出し、同一かどうかをスコアで判定します。
入力ミス等の曖昧性の対応には不可欠の機能です。
09年10月現在、本機能を有しているのは、当社エンジンのみです(当社調べ)。
重複度の閾値 名寄せ処理の目的(性質)によって、最適な重複度の閾値が変わってくるので、その扱いを設定可能です。
ほぼ間違いなく重複している場合のみ名寄せするのか、怪しければとりあえず名寄せしてしまうのか、グレー部分はヒトが判断するのか等。
テーブル数 名寄せの対象となるテーブル数が、3つ以上の場合にも問題なく対応できます。
データ優先度 AテーブルとBテーブルで名寄せを行った場合に、どちらのデータを、名寄せ結果として採用するのかを選択できます。
姓名分割 氏名の、姓と名を分割できます。
住所分割 住所の、都道府県や市区町村、丁目番地、建物名、等を分割できます。
電話番号分割 電話番号の、市外局番、市内局番、加入番号を分割できます。
旧→新 住所変換 旧住所を新住所へ変換できます。
〒⇔住所⇔TELの正誤アラート、補完、 郵便番号があるが、住所がない場合に、住所の一部を補完できます。
あるいは、いずれもあるが、郵便番号から指定される住所と、実際に入力されている住所が異なる場合に、アラート(フラグ)を出すことができます。 その逆や、電話番号でも同様に行うことができます。
世帯、会社の階造 名寄せ単位として、世帯や会社等のグループと、個人を扱うことが可能です。
例えば、会社Aに勤めるイさん、ロさんを会社Aでグループ化するような場合。
緯度経度付与 住所データに、緯度経度データを付与できます(ジオコーディング)。
これにより地図上にマッピングするようなことが可能となります。
マスタ・履歴データ マスタ形式データと、履歴形式データのいずれも名寄せが可能です。
重複利用チェック 複数のテーブルに登場したレコードが、何と何に登場したのかがわかります。
これにより、複数の営業チャネルがあった場合に、複数からコンタクトを取れている優良見込客等を発掘することができます。
履歴の回数カウント 履歴データの名寄せの場合、登場回数をカウントすることが可能です。
営業履歴データ等で、優良見込客の発掘等に使うことができます。

使ってみる(デモ)

名寄せサービスのデモをASPでご提供しています。サンプルデータもご用意しております。

使用方法

(1)名寄せを行いたいファイルを用意します(サンプルファイルもご用意しております)。

項目 内容 必須
ID データのID
名前 氏名、社名、店舗名など 合図太郎
カナ 名前のフリガナ   アイズタロウ
住所1 住所の一部分
都道府県など
東京都
住所2 住所の一部分
市区町村など
  千代田区
住所3 住所の一部分
町番地など
  10丁目10番地10号
住所4 住所の一部分
ビル名など
  千代田ヒルズ37階
電話番号 電話番号 (ハイフンの有無は問わず)
03-0000-0000

上記形式のCSVデータをご用意ください。なお、タイトル行(ヘッダー)は必要ありません。
本無料サービス内では、50レコード以内の、上記形式データの場合のみ名寄せが行えます。
 ↓
サンプルファイルは、下のボタンよりダウンロードいただけます。
(ファイルの中身を適当に書き換えていただくと、より名寄せの効果が実感いただけると思います。) 

(2)ファイルをアップロードして下さい。

(3)数秒ほどで名寄せが完了します。

結果の見方

参考情報として、入力ファイルのレコード数、名寄せ後のレコード数、重複レコード数が表示されます。 最下部に、行った名寄せ処理の例が表示されます。
重複度が高いほど、名寄せすべきレコードの組み合わせであることを表しています。

 デモページへ → 

お客様のご意見をお聞かせください。