【英語】 Compound Word/Compound Word Engine

【読み】 フクゴウゴ・フクゴウゴエンジン

用語解説

複合語とは語構成において2つ以上の内容形態素によって形成された語。合成語の下位分類の一つ。複合語エンジンは文章を複合語に分かち書きするエンジン。複合語解析技術で品詞(単語を文法上の性質によって分類したもの、動詞・形容詞・名詞などの10種類)の並びパターンに着目して、意味のある単位に単語を再構築。よって辞書にない単語を抽出できる。

■詳細説明
複合語とは
本来は独立した用法をもつ二つ以上の単語が結合してできた単語を指す。
下記に示すような複合名詞、複合動詞、複合形容詞がある。
複合名詞:「春」+「風」→「春風」
複合動詞:「追う」+「こす」→「追いこす」
複合形容詞:「重い」+「苦しい」→「重苦しい」
また、3つ以上の単語からなる複合語には下記の様なものがある。
「緊急」+「事態」+「宣言」→「緊急事態宣言」

また、和語・漢語・外来語という語種の異なる形態素からなる複合語を「混種語」と呼ぶ。例を示す。
「スマホ(外来語)」+「中毒(漢語)」→「スマホ中毒」
「天然(漢語)」+「物(和語)」→「天然物」

複合語、畳語、派生語の違い
複合語に近しい意味を持つ畳語と派生語の違いについて説明する。まず、畳語は同一の単語を重ねて一語としたものを指す。例えば、「人々」や「日々」など。次に、派生語は、本来は独立した一つの単語であるものに対して、接辞などの付与や、語形が変化して、別の一語となったものを指す。例えば、「ご親切」や「不合格」など。

形態素解析
大量のテキストデータを分析し、新たな発見やコスト削減に繋げられるテキストマイニングでは、テキストから単語への分割をどう行うかがその後の解析に大きく影響を及ぼす。
テキストマイニングでは、日本語をコンピュータが扱える情報に変換する「形態素解析」と呼ばれる技術が使用される。
形態素解析とは、自然言語で書かれた文章を形態素(言語で意味を持つ最小単位)の列に分割し、品詞を見分ける作業のことを指す。一般的には参照する情報源として対象言語の文法の知識(ここでは文法のルールの集まり)と辞書(品詞等の情報付きの単語リスト)を用いて、単語の単位で頻度を集計し、文章の特徴を把握することができるようになる。
Googleなどの検索エンジンでは、ユーザーが感覚的なキーワードで検索する事が多い。例えば、「神田で和食の居酒屋」といった検索をした際に、検索エンジンでは、下記の様に単語を処理して検索を行う事で、検索の精度向上と、不要なデータ処理を減らしている。「神田で和食の居酒屋」→ 神田/で/和食/の/居酒屋 → 神田/和食/居酒屋

主要な形態素解析ツール
形態素解析できる有名なツールを3つ(MeCab、Janome、TreeTagger)紹介する。
「MeCab」はオープンソースの形態素解析ツールで、誰でも自由に無償で利用できる。言語や辞書、データベース化された言語資料であるコーパスに依存しない、汎用的な設計が特徴である。ちなみに、名前の由来は作者であるGoogle社の工藤拓氏の好物が和布蕪(めかぶ)であることに由来とのこと。使用できる言語はPython、R 、C、C#、C++、Java、Perl、Ruby、など豊富に存在する。また、標準の辞書に加えて、様々なオープンソースの辞書を利用する事が出来る為、日本語の形態素解析エンジンの中では最も使用されている。

「Janome」は、pure Pythonで書かれている形態素解析ツールである。Pythonのライブラリの1つで、文章を形態素ごとに分割し、品詞の判定を行うことができる。ちなみに、名前の由来は「蛇の目」から来ている。Janomeは、辞書がはじめから内包されている。(ユーザー定義辞書も利用可能)

TreeTaggerは、英語をはじめとするドイツ語、イタリア語、デンマーク語など数十種類の言語の形態素解析に対応している。Linux、Windows、Mac-OS、ARMなど様々な環境で使用する事が出来る。

複合語解析エンジン
一般的な形態素解析では辞書に対する依存度が高いため、辞書に新しい語を都度追加する必要や、意味のある単位よりも細かく切り分けてしまうという問題がある。例)「東京オリンピック」はこの塊で意味を持つが、従来の形態素解析では「東京」「オリンピック」と切り分けてしまう。また企業におけるマーケティングにおいてSNSの口コミが重要な情報となる現代では、特に複合語などの正確なテキストマイニングが重要となる。
例えば、当社の複合語解析エンジンでは、文章内の単語の出現パターンを認識して、形態素同士を結合して意味のある単位でキーワードの抽出を行う事が出来る。結果的により人間の感覚に沿った、より理解しやすい分析結果を得ることができる。

■関連記事
【1】形態素解析と複合語解析
https://bodais.com/rd/knowledge/tm_compound/
テキストマイニングでは、日本語をコンピュータが扱える情報に変換する「形態素解析」と呼ばれる技術が使用される。しかしながら、一般的な形態素解析では辞書に対する依存度が高い、意味のある単位よりも細かく切り分けすぎてしまうという問題がある。
当社の複合語解析技術の場合、文章内の単語の出現パターンを認識して、形態素同士を結合して、意味のある単位でキーワードの抽出を行うことにより、もっと人間の感覚に沿った、もっと理解しやすい結果を得ることができる。


【2】複合語解析 デモ
https://bodais.com/rd/demo/tm_compound/
もっとも単純な複合語の技術を用いてできた複合語解析デモを体験することができる。詳細について、テキストフィールドに文章(300文字まで認識)を入れ、解析ボタンを押すと名詞を抽出しその単語とそこから得られる複合語が表示できる。

関連キーワード

関連事例


運営会社へのお問い合わせは、下記ボタンよりお問い合わせください。

運営会社へのお問い合わせはこちら 

bodais

bodais

DX総合支援サイト

運営会社