bodais 自動進化型データ解析
クラウドプラットフォーム

03-5259-9004 受付:平日10:00~18:00 

ア行

質問調査のこと。情報収集のための調査手法のひとつで、あらかじめ用意した質問について多数の人から回答を集め、それを集計して資料化する手法。

他のデータと明らかにかけ離れているデータのこと。

最適化問題の解法の一つ。複数ある解の候補を生物の個体に見立て、適応度の高い個体を優先的に残しつつ、候補の淘汰、交叉、突然変異の操作を繰り返して最終的に適応度の高い解を得ようとする手法。

多変量解析の一種。直接観測された変数は直接観測できない潜在的な変数(因子)の影響を受けていると仮定し、因子で観測データを説明する手法。共分散構造分析とは異なり、因子と観測データの関係をモデル化しない。

広告の露出を表す指標。延べ閲覧回数や延べ閲覧時間など。

サンプル集団と母集団で構成比が同じになるよう、サンプルに重みをつけて集計をすること。この重みをウェイト値、重みをつけた集計のことをウェイトバック集計という。

カ行

多変量解析の一種。ある変数の値を、別の変数の値を使って説明しようとする分析方法。説明に使う変数を説明変数や独立変数と呼び、説明される変数を被説明変数や従属変数あるいは目的変数と呼ぶ。例えば、人間の身長と胸囲を独立変数として、体重という従属変数を説明しようとすることができる。

サンプル間の類似度に基づいて逐次的にサンプルをグループ化して統合した後、同じ階層の幾つかのクラスター(塊)に分類する手法。この手法におけるサンプル統合の様子を視覚化したものがデンドログラムである。最短距離法、最長距離法、群平均法、ウォード法、メジアン法、重心法、可変法などが含まれる。

主語―述語、連体修飾語―体言などの係り受け関係を解析すること。日本語表現の文節同士にある関係を文法ルールや機械学習を取り入れたアルゴリズムに基づいて解析する。

データをグラフや絵などで視覚的に表現することで、データの概要を直感的に理解できるようにすること。

順序尺度の性質に加えて、等間隔性を持つ尺度のこと。例として、温度では0度、1度、2度という大小関係があり、かつ等間隔でもある。しかし、摂氏と華氏の2種類の温度があるように、原点と単位の大きさの取り方は自由なので、間隔尺度同士の掛け算や割り算は意味をなさない。

単語の共起性と出現頻度とに基づき、単語間の関係性を視覚的に表現したグラフ。話題やキーワードの抽出に用いたり、つながりの中から話題転換などを探すことにより新しい発想を導く分析に用いられる。

与えられたデータの平均値や分散など基本的な統計量を計算し、利用することで、データの特徴や傾向を説明する手法。

文章中に同時に表れることが多い単語の組み合わせを分析する手法。

多変量解析の一種。直接観測された変数を直接観測できない潜在的な変数で説明しようとする分析手法。因子分析とは異なり、潜在的な変数が観測データに与える影響(因果関係)を明確にモデル化する。

多変量解析の一種。データの集まりをいくつかのグループ(クラスター)に分類する手法。データ間の類似度を計算し、類似度が高いものを同じクラスターに入れていく。

2つの質的変数の関連性の強さを表す指標。0と1の間の値をとり、値が1に近づくほど関連性が強い。2変数がmカテゴリーの変数とnカテゴリーの変数である場合、クラメール係数はm行n列のクロス集計表から計算されたカイ2乗値の平方根に比例する。

2つの属性を元にサンプルを集計した2次元の度数分布表のこと。

分析目的とした項目に対し、その他の項目の中から、より因果関係の強いものを木の幹に、弱いものを枝へと振分けて、項目間の関係を表現する。量的変数を振り分ける回帰木、質的変数を振り分ける分類木がある。

アンケートの回答データを統計解析するために、文字情報や質的変数をコード化する作業。例えば「犬」「猫」「小鳥」のうちいずれかの値を取る質的変数αがあるとき、これを3つの変数(A、B、C)に分解し、α=「犬」のときA=1、B=0、C=0、α=「猫」のときA=0、B=1、C=0、α=「小鳥」のときA=0、B=0、C=1、とする処理(数量化)。

商品やサービスについての、顧客からの電話による問い合わせの記録。商品やサービスの問題点やニーズの抽出に用いられる。

商品やサービスを特徴付けている要素のうち、消費者にとってどれがどれだけ重視されているかを分析する手法。

どの分野にも広く出現する語彙。一般分野に多く出現する高頻度語彙。

サ行

回帰分析などの予測式を最適化する手法。観測値と予測値の誤差の二乗和が最小になるように予測式に含まれるパラメータの値を決定する。

ニューラルネットを用いたパターン認識の一種。カテゴリーの境界である識別平面を、パーセプトロンを使って求める手法。

セグメントごとにサンプル数や回答者数を指定すること。

名義尺度または順序尺度からなる変数。カテゴリー変数またはカテゴリカル変数とも言う。

実験で計測された数値やアンケートの回答結果などを、それらが表現する情報の性質により数学・統計学的に分類する基準のこと。名義尺度、順序尺度、間隔尺度、比例尺度の4つの尺度に分けられる。

トーナメント表のように逐次的に標本がグループ化される様子をツリー状の結線図で表したもの。デンドログラムとも言う。

多変量解析の一種。複数の変数の相関関係を、変数を合成することで得られた新たな変数(主成分)で説明しようとする分析手法。

名義尺度の性質に加えて、順序または大小関係も意味を持つ尺度のこと。例として、サービス満足度を、「不満」、「どちらともいえない」、「満足」の3段階で評価する場合が挙げられる。段階に順序関係はあるものの、段階の差に意味はない。中央値を定義することはできるが、平均値を定義することはできない。

複数の選択肢の中から回答を1つだけ選択させる質問項目のこと。

そのままでは統計的操作が困難な質的データや順序データを分析することを目的とする、一群の分析手法。

集団をある属性に基づいて分類したグループのこと。

2つの変数の関連性の強さを表す指標。

質的変数と量的変数の関連性の強さを表す指標。0と1の間の値をとり、値が1に近づくほど関連性が強い。質的変数がnカテゴリーの変数である場合、相関比はn個の各カテゴリーに分類されたグループ内での偏差平方和の合計をサンプル全体での偏差平方和で割った値に等しい。

特定分野に特徴的な語彙。中・低頻度の専門性の高い語彙。一般分野との対比によって決まる語彙であり、一般分野では特徴のない語彙に相当する。

テーマ語に同じ。
基本語彙の類似概念。当該のテキスト集合において、全般的な主題を表す高頻度語彙。一般的なテキスト集合であれば、基本語彙であることが多く、専門的なテキスト集合であれば、専門語彙がテーマ語彙となることが多い。主題の強さは、統計的に「頻度」によって計られる。

タ行

多次元の変数を対象に、その変化や関係などを説明しようとする分析手法の総称。クラスター分析、主成分分析、因子分析、判別分析、回帰分析、数量化理論などが含まれる。

1つの属性を元にサンプル数を集計した度数分布表。

グループインタビュー(GI)や面談などの形式で行われ、回答者には自然な言葉で自由に答えてもらう調査のこと。調査設計の時点では想定していなかったような意外な事実の発見や、心理的な分析などに用いられる。

アンケート調査など、サンプル量を確保し統計的に分析を行う調査のこと。

データマイニングの一分野。自然言語のテキストデータを解析することで新たな知見を発掘すること。定性調査によって得られたデータを分析することができる。自然言語はそのまま機械で扱えないために様々な工夫が必要になる。

膨大なデータから新しい知見を発掘(mine)すること。とくに近年、企業には大量のデータが蓄積するようになったため、そこから有用なパターンや相関性を探り出し、解析することで、新商品開発、営業、広報などの戦略立案に役立てることができる。データマイニングには、機械学習、情報数理、記述統計、多変量解析などの技術が利用される。

データ構造を把握するために、平均値などの統計値を算出したり、ヒストグラムなどを分析すること。

年齢や性別など、人口統計学的な属性のこと。

樹状図に同じ。
トーナメント表のように逐次的に標本がグループ化される様子をツリー状の結線図で表したもの。デンドログラムとも言う。

ある文章が何に関して述べられたものなのかを大まかに示す単語・文や、その文章の独自性を特徴付ける単語・文を探り出し、分析する手法。

同じ内容の調査を一定期間に定期的に繰り返して行う調査のこと。例えば新しく始めた販促キャンペーンが実際の売上に与える影響などをより適切に評価することができる。

基本語彙の類似概念。当該のテキスト集合において、全般的な主題を表す高頻度語彙。一般的なテキスト集合であれば、基本語彙であることが多く、専門的なテキスト集合であれば、専門語彙がテーマ語彙となることが多い。主題の強さは、統計的に「頻度」によって計られる。

専門語彙の類似概念。当該のテキスト集合において、特徴的な中・低頻度の語彙。専門語彙であったり、基本語彙でも特殊な話題、突発的な話題であることが多い。特徴の強さは、統計的に「特徴度」によって計られる。

頻度分布におけるテキスト統計量に基づいて抽出される語彙。専門語やトピック語がこれに相当する。

特徴語を抽出するための指標。特徴的であるかどうかは、基本語彙を抽出する集合と専門語彙を抽出する集合との対比において、各語の出現頻度、出現文書数、出現分布等を組み合わせた計算式によって決定される。出現頻度を用いて計算される代表的な指標としては、頻度比、ダイス係数、余弦、補完類似度(CSM)、対数尤度比(LLR)、カイ2乗量(Chi2)、自己相互情報量(PMI)などが知られる。

ナ行

予測や判定に用いるモデルの一種で、ニューロンの結合ネットワークを構成し、過去データの学習によってニューロン間の情報伝達を最適化するモデル。

ハ行

POSデータなどを使って、同時に購入されやすい商品の組み合わせを把握するための分析手法。

多変量解析の一種。データの集合がすでにいくつかのグループに分類されているとき、新しく得られたデータがどのグループに分類されるのかを判断するための手法。Webページのカテゴリ分けなどに使える。

間隔尺度の性質に加えて、絶対原点が存在する尺度のこと。比尺度とも言う。身長や体重、時間、速度などは比例尺度である。比例尺度では、比例尺度間の比は何らかの意味を持つ(例:距離÷時間=速度)。

性別や年齢など、回答者を特徴付ける基本的な属性を問う質問項目のこと。

言葉で自由に回答させる質問項目のこと。

広告への接触頻度を表す指標。ある広告に接触した人1人あたりの平均接触回数。

起こるか起こらないかはっきりとは分からない事象同士の因果関係と発生確率をモデル化したもの。モデルを構築することで物事の因果関係を把握しやすくできる。

ある事柄について述べられている文章を解析して、その事柄をポジティブに評価しているのか、それともネガティブに評価しているのかを把握する手法。ブログの記事から商品の評価を知ることなどができる。

マ行

複数の選択肢の中から回答を2つ以上選択させる質問項目のこと。

性別や血液型などのようにデータを分類するために振り当てられた数字や名前のこと。

ラ行

ある広告が掲載されている媒体の利用者数のうち、その広告に接触した人数の割合。接触者率ともいう。テレビCMの場合、視聴率と同義。

間隔尺度または比例尺度からなる変数。数量変数とも言う。

回答者に回答してもらったままのデータのこと。記入漏れや誤記入がある可能性があるため、通常は分析前にデータ洗浄を行う。

ワ行

トピック語に同じ。
専門語彙の類似概念。当該のテキスト集合において、特徴的な中・低頻度の語彙。専門語彙であったり、基本語彙でも特殊な話題、突発的な話題であることが多い。特徴の強さは、統計的に「特徴度」によって計られる。

英数字

顧客獲得単価。新しい顧客1人を獲得するために使われた広告費。広告費÷新規顧客数で計算される。または、成約1件に料金いくらという契約形態のWeb広告の、成約1件あたりの料金のこと。

クリック単価。Web上の広告で、広告のリンクが1回クリックされるために費やされた広告費。広告費÷クリック回数で計算される。

Web上の広告がブラウザに表示された回数のうち、広告のリンクがクリックされた回数の割合。

広告への接触量を表す指標で、リーチ×フリークエンシーで計算される。延べ視聴率ともいう。視聴率20%の番組にCM広告を10本流したとき、そのCMの延べ視聴率は200GRPとなる。

Point of Sales の略で直訳すると「販売時点」となる。どの商品が・いつ・どこで・いくらで・いくつ売れたかを記録したデータのこと。購入者に関する情報も記録しておくことがある。POSデータを分析することで、在庫や発注を効率化することなどができる。

Webサイトのフォームなどを経由して得られる問い合わせ内容。クレームの分類や件数推移を分析し、商品や組織の課題を抽出するために用いられる。