Free Trial

ディスカッション

答えを見つけ、質問し、Alteryx の専門知識を共有してください。

データサイエンス100本ノック 構造化データ加工編をAlteryxでやってみる(89問目~92問目:予測のためのデータ準備編)

AkimasaKajitani
17 - Castor
17 - Castor

一般社団法人データサイエンティスト協会から公開されているデータサイエンス100本ノック 構造化データ加工編のウィークリーチャレンジ方式による出題第18回目は89問目~92問目を一つにまとめてみました。今回は予測のためのデータ準備問題です。

 

  • P-089: 売上実績がある顧客を、予測モデル構築のため学習用データとテスト用データに分割したい。それぞれ8:2の割合でランダムにデータを分割せよ。

    ※全体のレコード数を「TotalCount」、学習データのレコード数を「Count」とし、学習データの割合を出力すること(フィールド名は「学習データ割合」とする)

  • P-090: レシート明細データ(receipt.csv)は2017年1月1日〜2019年10月31日までのデータを有している。売上金額(amount)を月次で集計し、学習用に12ヶ月、テスト用に6ヶ月の時系列モデル構築用データを3セット作成せよ。

  • P-091: 顧客データ(customer.csv)の各顧客に対し、売上実績がある顧客数と売上実績がない顧客数が1:1となるようにアンダーサンプリングで抽出せよ。

    ※売上実績がある顧客、ない顧客の状況を示すフィールド名を、is_buy_flagとし、売上実績あればYes、なければNoを格納すること
    ※解答は、最終的にYes、Noのカウントを出力すること

  • P-092: 顧客データ(customer.csv)の性別について、第三正規形へと正規化せよ。

    ※正規化後のテーブルは先頭から10件を抽出すること

 

解いたらこちらに投稿していただければと思います。ちなみに、次回投稿は一週間後を予定しています。

 

solutionファイルは次回添付します。

 

添付ファイルは今回の出題のstartファイルと、前回のsolutionファイルです。

 

前回:データサイエンス100本ノック 構造化データ加工編をAlteryxでやってみる(87問目~88問目:名寄せ編)

4件の返信4
Yoshiro_Fujimori
オーロラ

回答します。

例によって.yxzpが添付できないため.yxmdを添付します。

スポイラ
89問目
Yoshiro_Fujimori_0-1668996574908.png

90問目

Yoshiro_Fujimori_1-1668996609420.png

91問目

Yoshiro_Fujimori_2-1668996638524.png

92問目
Summaryツールの出力順が解答データと異なります。(Expected: {0, 9, 1}の順、Actual: {1, 9, 0}の順)
単純なキー順でもないし合わせ方がよくわからないのですが、使用上は実害はないのでそのままにしてあります。

Yoshiro_Fujimori_3-1668996666189.png

 

 

 

DaisukeTsuchiya
パルサー

できました。もう少しスマートにできそうですが…。

スポイラ
キャプチャ.JPG
AkimasaKajitani
17 - Castor
17 - Castor

できました!

 

90問目は今回はマクロで解いてみました。

 

スポイラ
AkimasaKajitani_0-1669518746738.png
AkimasaKajitani_1-1669518764998.png
AkimasaKajitani_2-1669518787065.png
AkimasaKajitani_3-1669518805281.png

90問目のマクロ
AkimasaKajitani_4-1669518826395.png

 

 

 

 

 

yyokoyama
アステロイド

提出します。正規化の知識がなく、勉強になりました。