Community Spring Cleaning week is here! Join your fellow Maveryx in digging through your old posts and marking comments on them as solved. Learn more here!
Free Trial

ディスカッション

答えを見つけ、質問し、Alteryx の専門知識を共有してください。

データサイエンス100本ノック 構造化データ加工編をAlteryxでやってみる(89問目~92問目:予測のためのデータ準備編)

AkimasaKajitani
17 - Castor
17 - Castor

一般社団法人データサイエンティスト協会から公開されているデータサイエンス100本ノック 構造化データ加工編のウィークリーチャレンジ方式による出題第18回目は89問目~92問目を一つにまとめてみました。今回は予測のためのデータ準備問題です。

 

  • P-089: 売上実績がある顧客を、予測モデル構築のため学習用データとテスト用データに分割したい。それぞれ8:2の割合でランダムにデータを分割せよ。

    ※全体のレコード数を「TotalCount」、学習データのレコード数を「Count」とし、学習データの割合を出力すること(フィールド名は「学習データ割合」とする)

  • P-090: レシート明細データ(receipt.csv)は2017年1月1日〜2019年10月31日までのデータを有している。売上金額(amount)を月次で集計し、学習用に12ヶ月、テスト用に6ヶ月の時系列モデル構築用データを3セット作成せよ。

  • P-091: 顧客データ(customer.csv)の各顧客に対し、売上実績がある顧客数と売上実績がない顧客数が1:1となるようにアンダーサンプリングで抽出せよ。

    ※売上実績がある顧客、ない顧客の状況を示すフィールド名を、is_buy_flagとし、売上実績あればYes、なければNoを格納すること
    ※解答は、最終的にYes、Noのカウントを出力すること

  • P-092: 顧客データ(customer.csv)の性別について、第三正規形へと正規化せよ。

    ※正規化後のテーブルは先頭から10件を抽出すること

 

解いたらこちらに投稿していただければと思います。ちなみに、次回投稿は一週間後を予定しています。

 

solutionファイルは次回添付します。

 

添付ファイルは今回の出題のstartファイルと、前回のsolutionファイルです。

 

前回:データサイエンス100本ノック 構造化データ加工編をAlteryxでやってみる(87問目~88問目:名寄せ編)

4件の返信4
Yoshiro_Fujimori
オーロラ

回答します。

例によって.yxzpが添付できないため.yxmdを添付します。

スポイラ
89問目
Yoshiro_Fujimori_0-1668996574908.png

90問目

Yoshiro_Fujimori_1-1668996609420.png

91問目

Yoshiro_Fujimori_2-1668996638524.png

92問目
Summaryツールの出力順が解答データと異なります。(Expected: {0, 9, 1}の順、Actual: {1, 9, 0}の順)
単純なキー順でもないし合わせ方がよくわからないのですが、使用上は実害はないのでそのままにしてあります。

Yoshiro_Fujimori_3-1668996666189.png

 

 

 

DaisukeTsuchiya
パルサー

できました。もう少しスマートにできそうですが…。

スポイラ
キャプチャ.JPG
AkimasaKajitani
17 - Castor
17 - Castor

できました!

 

90問目は今回はマクロで解いてみました。

 

スポイラ
AkimasaKajitani_0-1669518746738.png
AkimasaKajitani_1-1669518764998.png
AkimasaKajitani_2-1669518787065.png
AkimasaKajitani_3-1669518805281.png

90問目のマクロ
AkimasaKajitani_4-1669518826395.png

 

 

 

 

 

yyokoyama
アステロイド

提出します。正規化の知識がなく、勉強になりました。