単語の自動分類技術とは、単語のもつ意味属性や文章における背景などの情報をもとに、単語に共通する概念カテゴリーへ分類する技術です。

 

単語の自動分類とは

単語の自動分類技術とは、単語のもつ意味属性や文章における背景などの情報をもとに、単語に共通する概念カテゴリーへ分類する技術です。
ホームページの閲覧者によるコメント投稿やSNS投稿などにおいて、公共の秩序や良識に反する表現がある場合には、公開の上では不適切と考えられます。
サービス運営のために、不適切な記載は適宜削除するなどの処理が必要で、人間の目視確認では膨大な時間とコストがかかります。
このような監視業務に単語自動分類の技術は活用されています。
また、単語の分類だけでなく、文章を指定のカテゴリーに分類する際にも有用な技術です。文章の感情分類、記事の分類(社会、国際、文化、スポーツ)、製品への問い合わせの分類(苦情、利用方法、改善要望、その他)などに応用することができます。

単語自動分類の解析エンジン

不適切語と安全語の自動分類システムの例。文章群から不適切語・安全語を抽出分類し、用語集(不適切語(ブラック)辞書、安全語辞書(ホワイト)辞書など)を作成します。 ① 文書データ取得
② 無害/有害/グレー判定:未分類の単語に対して、無害・有害のラベルやスコア(有害・無害である確率)を付与します
③ 判定結果出力
④ データ管理・フィードバック:判定が正しいかどうかの確認のために、無作為に単語を選んで検査、又は有人監視でチェックを行います。
⑤ 学習:上記のフローを回すことにより、無害(ホワイト)/有害(ブラック)の辞書の単語数が増加し、無害・有害・無害の判定精度が向上します

・無害/有害/グレー判定における解析手法は、分析目的・内容やデータの種類・質・量、計算コストなどに応じて、個別に設計を行います。
・機械判別と有人監視を組み合わせることで、監視コストを低減させつつ判別精度を向上させることも可能です

概念図

白黒判定とブラック辞書・ホワイト辞書作成

商品/デモ

デモ:作成中