ブログ

Garabujo7 · ‎06-16-2021

特徴エンジニアリングとは実勢の変数から新しい変数を作成することで御座います。

特徴エンジニアリングはデータ準備の一部ですが、機械学習でもよく利用されております。

直感や、専門知識のドメインや、技術の専門知識を基に新たな行が生み出されますが、大変困難な処理でであることが大多数です。

大抵の場合、手動処理なので長い時間が掛かる他、「SQL」や「プログラミング」などの知識を有していなければなりません。

通常、様々なシステムや表などから散在しているデータ表を抜粋して、それらのデータを機械学習の演算手順のために一つの表に収集する必要が御座います。

そこで、時間の節約のために「Alteryx Designer 2021.1版」の機械学習タブに：「特徴量データ型」、「特徴量構築」、「自動機械学習」、「データヘルス」の計4つの新しいツールが追加されました。

業務に価値を与えると同時に、高品質の機械学習モデルを作成するにはこの新たなツールのご利用を強くお勧め致します。

一番目のツールは「特徴量データ型」で御座います。

このツールは簡単な設定です。

以下の画像と同じように「名前」と、「タイプを入力」と、「データ型を変更」と、「出力タイプ」が表示されます。

機械学習モデルが的確に作動するためには「自動検出」をお選びになられることを強くお勧めしております。これで、「データ型を変更」の処理は自動的に行われ、以下の画像のようにたくさんのオプションが提供されるはずです。

2番目のツールは「特徴量構築」で御座います。

このツールは正規化データを必要としますが、第３正規形で十分です。

第３正規形では副書データが存在していてはならないので、それぞれの副書データのテーブルを作成して頂き、そちらへ移動して頂きます。こうすることで、全ての副書データが個々のテーブルに含まれたことになります。

例えば、日本の県の目録や、ユーザのお客様の住所に関するデータなどを含む一つのテーブルが存在するとします。

このテーブルを第３正規形に変更するには、まず、日本の県の副書データに「キーフィールド」を追加し、新たなテーブルをお作りになられてからこちらに移動して頂くと、日本の県のみのテーブルを作成することができます。この時点で、計２つのテーブルが御座います。

これで、お客様のテーブルに日本の県に対する「キーフィールド」を書き込むことで、２つのテーブルは「キーフィールド」で関連されます。

最終的に、副書データは無くなり、データベースを第3正規形に変更することで正規化が可能となります。

このツールで別々のテーブルに含まれているデータ間の関係を確立することができます。

次の画像では、「関係性の管理」のタブの「ターゲットテーブル」に主なテーブルを入力します。

「テーブル」と関連させる「主キー」を選択して下さい。

その他に、親テーブルのキーと子テーブルのキーを関連させると、その関係に基づき新たな特徴が作成されます。

次に、「プリミティブ管理」のタブを選択して下さい。プリミティブというのは機能で御座います。

こちらにはたくさん機能が存在し、５つまでのプリミティブが選択可能となっております。

これで新たな特徴の数の指数的成長が避けられ、このツールの出力データが自動で新しい特徴を作成することができます。

これらの新しい特徴は機械学習モデルに利用されます。

3番目のツールは「自動機械学習」で御座います。

このツールではモデルの目標を選定して頂き、データタイプ次第で自動的にメソッドが選択されます。

２つのデータタイプが存在します。一つ目は「回帰」です。このメソッドでは数値的データタイプを介してモデルが訓練されます。２つ目のメソッドは「分類」です。こちらではカテゴリーデータでモデルが修練されます。

次の部は「詳細パラメーター」です。

ターゲットの選択の後、「目的関数」を選定します。

目的関数は7つ存在し、その内１つを最適化することができます。

最後に4つのアルゴリズムがありますが、全て選定して頂くことが可能となっております。

その結果、最高のモデルと評価指標が得られます。

４番目のツールは「データヘルス」で御座います。

こちらのツールではデータセットを接続して頂きます。

このツールには3つの出力結果が御座います。

最初のアウトプットは次の画像の様に「Field・Metric・Rating・Score・Recommended Action」といった健康計量データが５つ表示されて、この中には「Score」次第の「Recommended Action」が表示されます。

次の出力はデータヘルスを報告します。

「列ごとの欠落値の健全性」と「行ごとの欠落値の健全性」と「列ごとの外れ値の健全性」の三つの結果が表示されます。

また、文字盤では、全体的なデータヘルスが表われます。

最後のアウトプットは列毎に「Outlier」の詳細を表示します。

いつものように、ご質問など御座いましたら、是非、遠慮なくコメントしてください。

ブログ

「Alteryx」で特徴のエンジニアリング

データの形の変化でわかるAlteryx Data Preparation Cheat Sheet

Alteryx Academy が日本語でご利用できるようになりました!

Alteryxコミュニティ2019年9月リリース（v19.7）

マクロを使って自作ツールを作成する

ワークフロー開発を高速化させるTips