データサイエンス100本ノック 構造化データ加工編をAlteryxでやってみる(27問目~32問目:統計量計算編)
- RSS フィードを購読する
- トピックを新着としてマーク
- トピックを既読としてマーク
- このトピックを現在のユーザーにフロートします
- ブックマーク
- 購読
- ミュート
- 印刷用ページ
- 新着としてマーク
- ブックマーク
- 購読
- ミュート
- RSS フィードを購読する
- ハイライト
- 印刷
- モデレーターに通知する
一般社団法人データサイエンティスト協会から公開されているデータサイエンス100本ノック 構造化データ加工編のウィークリーチャレンジ方式による出題第6回目は27問目~32問目を一つにまとめてみました。今回は統計量の計算です。標準偏差、分散は少し厄介な問題です。
- P-027: レシート明細データ(receipt.csv)に対し、店舗コード(store_cd)ごとに売上金額(amount)の平均を計算し、降順でTOP5を表示せよ。
- P-028: レシート明細データ(receipt.csv)に対し、店舗コード(store_cd)ごとに売上金額(amount)の中央値を計算し、降順でTOP5を表示せよ。
P-029: レシート明細データ(receipt.csv)に対し、店舗コード(store_cd)ごとに商品コード(product_cd)の最頻値を求め、10件表示させよ。
※出力データは、店舗コード(store_cd)の昇順で並べ、10件を表示すること
P-030: レシート明細データ(receipt.csv)に対し、店舗コード(store_cd)ごとに売上金額(amount)の分散を計算し、降順で5件表示せよ。
※不偏分散をまず出力しましょう。余裕があれば標本分散にもチャレンジしてください
P-031: レシート明細データ(receipt.csv)に対し、店舗コード(store_cd)ごとに売上金額(amount)の標準偏差を計算し、降順で5件表示せよ。
※不偏標準偏差(標本標準偏差)をまず出力しましょう。余裕があれば標準偏差にもチャレンジしてください
P-032: レシート明細データ(receipt.csv)の売上金額(amount)について、25%刻みでパーセンタイル値を求めよ。
※データの持ち方として、横持ち(パーセンタイルと各フィールドとして持つ)と縦持ち(パーセンタイルと値のリストとして持つ)の二つのタイプでデータを整形してください
解いたらこちらに投稿していただければと思います。ちなみに、次回投稿は一週間後を予定しています。
solutionファイルは次回添付します。
添付ファイルは今回の出題のstartファイルと、前回のsolutionファイルです。
前回:データサイエンス100本ノック 構造化データ加工編をAlteryxでやってみる(21問目~26問目:データ抽出中級+カウント編)
- ラベル:
- データサイエンス100本ノック
- 新着としてマーク
- ブックマーク
- 購読
- ミュート
- RSS フィードを購読する
- ハイライト
- 印刷
- モデレーターに通知する
今週もありがとうございます。
以下 回答します。
- 今回の学び:∑ツールは一度Runしないと入力データのデータ型を認識しない
- 今回の苦労:Double型の結果比較は丸め誤差で一致しないことがあるが、合わせるのは難しい(ので見た目あっていればOKとしました)
問28
問29
問30:Expect Equalツールでテストすると一致しませんでしたが、丸め誤差と解釈してOKとしました。
問31:同上
問32
- 新着としてマーク
- ブックマーク
- 購読
- ミュート
- RSS フィードを購読する
- ハイライト
- 印刷
- モデレーターに通知する
やってみました。
AlteryxのStandard DeviationやStandard VarianceはPopulationでなく、Sampleであることを勉強になりました。
https://community.alteryx.com/t5/Alteryx-Designer-Knowledge-Base/Standard-Deviation-Population-Macro...
- 新着としてマーク
- ブックマーク
- 購読
- ミュート
- RSS フィードを購読する
- ハイライト
- 印刷
- モデレーターに通知する
ありがとうございます。色々勉強になりました。
不偏と標準の違いについて勉強になりました。
ちなみに31問目の*表記の部分合っていますでしょうか? 不偏に対して標本ではないでしょうか?
- 新着としてマーク
- ブックマーク
- 購読
- ミュート
- RSS フィードを購読する
- ハイライト
- 印刷
- モデレーターに通知する
この標準偏差の言葉の使い方なのですが、色々と調べつつ記載してまして、最終的にはこちらのサイトの内容を考慮した書き方になっています。
https://biolab.sakura.ne.jp/variance.html
結構定義があいまいなので、nで割る標準偏差/分散、n-1で割る標準偏差/分散といった方が誤りにくそうではありますね・・・。
Excel的にSTDEV.Pなのか、STDEV.Sなのか、といった方が正直わかりやすい気がしています。
なので、いっそのこと、母集団の標準偏差と標本の標準偏差、などとどこに対しての標準偏差なのかを明確に示す書き方の方が良いかもしれませんね・・・。
- 新着としてマーク
- ブックマーク
- 購読
- ミュート
- RSS フィードを購読する
- ハイライト
- 印刷
- モデレーターに通知する
@AkimasaKajitani
夜分遅くご回答ありがとうございます。私もまだ仕事やっていますが…。
ややこしいですね…。ここら辺自分は詳しくないので、色々勉強になります。
- 新着としてマーク
- ブックマーク
- 購読
- ミュート
- RSS フィードを購読する
- ハイライト
- 印刷
- モデレーターに通知する
回答します!
- 新着としてマーク
- ブックマーク
- 購読
- ミュート
- RSS フィードを購読する
- ハイライト
- 印刷
- モデレーターに通知する
AlteryxのVarianceは不偏分散だったのですね。知りませんでした。
集合演算が入ったSQLクエリーは読む気なくなってくるので、Alteryxがいいです。
メモ
初心者はいったん標本~系は飛ばしてもよさそう
