はじめに
サービスの概要
bodaisクラスタリングサービスは、お持ちのデータを、その属性に応じて分類(クラスタリング)するサービスです。本サービスには、「教師なし」及び「教師あり」と呼ばれる2つのサービスを含みます。「教師なし」は、分類のついていないデータに分類を付与するサービスです。「教師あり」は、既に分類のついているデータを用いて分類モデルを構築し、新しいデータに分類を付与(予測)するサービスです。
「教師なし」クラスタリング
- 既存の、分類がついていないデータに対してbodaisにより統計的に分類を付与します。
- 分類を付与したデータを、次の教師ありクラスタリングでの分類モデル構築に利用することができます。
「教師あり」クラスタリング
- 既存の、分類がついているデータをbodaisに学習させ、分類モデルを構築します。
- 新たな、まだ分類のついていないデータに、分類を付与(予測)します。
「教師なし」クラスタリングと比較して、お客様が行った分類に基づいた分類付与を行うことが可能です。
2. サンプルデータ
bodaisでは実際の解析の流れをつかんでいただくために、サンプルデータをご用意しています。
サンプルデータのページより、適切なものを選んでお使いください。
なお、サンプルデータでの解析は無料(課金対象外)ですので、お気軽に何度でもお試しいただくことが可能です。ただし、一部でもデータ書き換えなどがあると、課金対象となりますのでご注意ください。
3. ジョブ
ジョブとはbodaisのモデル・予測・検証を、プロジェクト毎にまとめて管理するための概念です。一つのジョブに、複数のモデルを作成することができます。またさらに、一つのモデルに複数の予測・検証を作成することが可能です。
まずはジョブを作成します。ご不明な場合は、ジョブのヘルプページをご覧ください。
4. モデル作成(教師なし)
モデル作成(教師なし)では、分類がついていないデータに対してbodaisにより分類を付与します。その後、結果をbodaisに学習させ、分類モデルを構築することもできます(教師ありのモデル作成)。
モデル(教師なし)用データの準備
まず、分類をつけたいデータをご用意いただきます。これをbodaisで解析することができる解析用データに加工していただきます。データは、ID(番号)、属性(顧客属性など)の二つの部分で構成されている必要があります。
※以下ではサンプルデータを例に説明いたします。
IDは、各レコード(データの1行)を一意に管理するために設定します。つまり、おなじIDを持つレコードが存在しないように番号を振る必要があります。
属性は、顧客の「年齢」、「性別」などの基本情報から、「アクセス回数」、「最新アクセス日」などの顧客の行動履歴などがあります。 (分類対象が、「顧客」でない場合にももちろんお使いいただけます。)
データは下記の形式に従って、作成してください。
- データ形式は、カンマ区切りテキスト(CSV形式)にします。
- 1レコード目はデータ列の項目名を記入してください。
- 1列目はユーザーを識別するためのIDにします(モデル作成には使われません)。
- 2列目以降にユーザーの属性を記入します。
- 属性は整数でコード化してください(例:性別の場合、男性を1、女性を2とする)。
モデルの作成
モデルの下の+ボタンをクリックし、新規モデル作成に移って下さい。 画面最下部の「新規モデルを作成する」でも同様の効果が得られます。
モデル名称を入力し、教師データは「なし(クラスター生成)」を選択します。モデル用ファイルの「参照」ボタンをクリックし、教師なしクラスタリング用のデータを選択します。また、クラスタ数をプルダウンから「自動」又は数値を選択し指定します。
ファイルのアップロードが確認できたら、「解析を開始する」のボタンをクリックして下さい。 プレビュー画面が出てくるので、問題が無ければ最下部の「解析を開始する」をクリックして下さい。
モデル作成日時が「解析待ち」から「解析中」に変わり、最終的に日付に変わったら解析完了です。
解析完了後、次のような画面(モデルの詳細情報)になります。
モデルの詳細情報は「基本情報」、「ヒストグラム」、「プロファイルチャート」、「バブルチャート」、「効果指標」の5つで構成されています。
基本情報
基本情報は主に、モデルの詳細とチャートから成り立っています。
詳細情報としては、モデルの名称・作成日時・モデルの評価値、分割クラスタ数、推奨クラスタ数が表示されます。
チャートには、セグメントボリューム、評価値分布、特徴属性リストが表示されます。
また上部の「クラスタ名を付与する」をクリックして各クラスタの名称を変更することができます。
レポーティング機能
bodaisではビジュアル化された解析結果をワンクリックでエクセル形式の報告書に出力でき、社内での報告書や企画書にすぐに反映できます。
レポート欄の「レポート取得」ボタンをクリックしてください。報告書が自動で作成され、ダウンロードができるようになります。レポートはモデル・予測・検証全ての基本情報画面からダウンロードできます。
クラスタ番号付きリストをダウンロード
作成したクラスタ番号を、アップロードしたデータに付与したリストをダウンロードできます。
基本情報画面下部の「クラスタ番号付きリストをダウンロードする」をクリックしてください。CSV形式でダウンロードされます。
効果指標をダウンロード
bodaisでは「どのカテゴリが効いているか」を確認することができる指標、「効果指標」の一覧をダウンロードすることが出来ます。効果指標画面の「効果指標をダウンロードする」(下記画面の赤枠)をクリックしてください。CSV形式でダウンロードされます。
分類を付与したこのデータをbodaisに学習させることで、分類モデルを構築することができます(教師ありのクラスタリング)。モデル詳細の基本情報画面下部の「教師ありモデルを作成する」ボタンをクリックします。
詳細は、後述するクラスタリング(教師あり)をご覧ください。
5. モデル作成(教師あり)
モデル作成(教師あり)では、既存の、分類が付いているデータをbodaisに学習させ、分類モデルを構築します。
教師なしクラスタリングで付与した分類を使って、分類モデルを構築することも可能です。
モデル(教師あり)用データの準備
まず、お客様がお持ちの、分類がついているデータをご用意いただきます。これをbodaisで解析することができる解析用データに加工していただきます。データは、ID(番号)、属性(顧客属性など)、正解フラグ(クラスタ番号=分類)の三つの部分で構成されている必要があります。
※以下ではサンプルデータを例に説明いたします。
データの作り方は、教師なしの場合と同様です。教師なしの場合に無かった「正解フラグ」は、最終列に入力してください。
正解フラグは、クラスタ番号、すなわち分類を記載します。分類は、整数で記載してください。なおクラスタ数の上限は「15」です。これ以上のクラスタ数では分析が行えません。ご注意ください。
モデルの作成
モデルの下の+ボタンをクリックし、新規モデル作成に移って下さい。 画面最下部の「新規モデルを作成する」でも同様の効果が得られます。
モデル名称を入力し、教師データは「あり(クラスター判別)」を選択します。モデル用ファイルの「参照」ボタンをクリックし、教師ありモデル用のデータを選択します。
ファイルのアップロードが確認できたら、「解析を開始する」のボタンをクリックして下さい。 プレビュー画面が出てくるので、問題が無ければ最下部の「解析を開始する」をクリックして下さい。
モデル作成日時が「解析待ち」から「解析中」に変わり、最終的に日付に変わったら解析完了です。
解析完了後、モデル詳細画面が表示されます。表示内容は、教師なしの場合とほぼ同様です。
6. 予測
予測作成では、モデル作成で作った「分類モデル」を使って、新たな、まだ分類のついていないデータに、分類を付与します。
予測用データの準備
まず、お客様がお持ちの、これから分類付与したいデータをご用意いただきます。これをbodaisで解析することができる解析用データに加工していただきます。加工は、モデル作成用データと同じ方法で行ってください。コードへの変換方法が、モデルの場合と異なると正しい分析結果が出ませんのでご注意ください。最終列に正解フラグ(分類=クラスタ番号)は必要ありません。
予測の作成
画面上部の概念図の「予測」の下の+をクリックして下さい。現れた画面から予測を作成します。基本的に、モデル作成時と同様の操作になります。
解析完了後、予測詳細画面が表示されます。表示内容は、モデル作成の場合とほぼ同様です。
7. 検証
検証では、作成した分類モデルが、適切な分類付与を行えているかどうかを検証することができます。
ただし利用できるのは、事後的に正しい分類がわかる場合に限られます。
検証用データの準備
事後的に正しい分類がわかったデータをご用意いただきます。以下のように予測データのID番号とその正解フラグ(正解クラスタ番号=事後的にわかった正しい分類)が2列で記載されているcsvファイルを作成してください。ID番号が予測データと異なっていると正しく検証が行えませんので、ご注意ください。
検証の作成
画面上部の概念図の「検証」の下の+をクリックして下さい。現れた画面から検証を作成します。基本的に、モデル作成時と同様の操作になります。
完了後、次のような画面になります。
検証の詳細情報は「全体検証」、「個別検証」の2つで構成されています。
全体検証
全体検証は主に、検証の詳細とチャートから成り立っています。詳細情報としては、モデル、予測、検証それぞれの名称・作成日時・評価値などを表示します。
個別検証
属性ごとのクラスタ正解率、また平均正解率を示したグラフです。
8.リモデル
リモデルでは、モデル用データに加えて、予測用データ、そして検証で用いたその正解フラグを組み合わせて新たにモデルを構築します。これにより、定期的なモデルの更新が簡単に行えます。
※古いモデルを使っていては、前提条件が異なるために現状に即した結果がでてこないことがあります。そのためモデルの更新は定期的に行うようにしてください。
リモデルの作成
検証詳細画面下部の「リモデル」をクリックして下さい。現れた画面からリモデルを作成します。基本的に、モデル作成時と同様の操作になります。