一般社団法人データサイエンティスト協会から公開されているデータサイエンス100本ノック 構造化データ加工編のウィークリーチャレンジ方式による出題第6回目は27問目~32問目を一つにまとめてみました。今回は統計量の計算です。標準偏差、分散は少し厄介な問題です。
P-029: レシート明細データ(receipt.csv)に対し、店舗コード(store_cd)ごとに商品コード(product_cd)の最頻値を求め、10件表示させよ。
※出力データは、店舗コード(store_cd)の昇順で並べ、10件を表示すること
P-030: レシート明細データ(receipt.csv)に対し、店舗コード(store_cd)ごとに売上金額(amount)の分散を計算し、降順で5件表示せよ。
※不偏分散をまず出力しましょう。余裕があれば標本分散にもチャレンジしてください
P-031: レシート明細データ(receipt.csv)に対し、店舗コード(store_cd)ごとに売上金額(amount)の標準偏差を計算し、降順で5件表示せよ。
※不偏標準偏差(標本標準偏差)をまず出力しましょう。余裕があれば標準偏差にもチャレンジしてください
P-032: レシート明細データ(receipt.csv)の売上金額(amount)について、25%刻みでパーセンタイル値を求めよ。
※データの持ち方として、横持ち(パーセンタイルと各フィールドとして持つ)と縦持ち(パーセンタイルと値のリストとして持つ)の二つのタイプでデータを整形してください
解いたらこちらに投稿していただければと思います。ちなみに、次回投稿は一週間後を予定しています。
solutionファイルは次回添付します。
添付ファイルは今回の出題のstartファイルと、前回のsolutionファイルです。
前回:データサイエンス100本ノック 構造化データ加工編をAlteryxでやってみる(21問目~26問目:データ抽出中級+カウント編)
今週もありがとうございます。
以下 回答します。
問28
問29
問30:Expect Equalツールでテストすると一致しませんでしたが、丸め誤差と解釈してOKとしました。
問31:同上
問32
やってみました。
AlteryxのStandard DeviationやStandard VarianceはPopulationでなく、Sampleであることを勉強になりました。
https://community.alteryx.com/t5/Alteryx-Designer-Knowledge-Base/Standard-Deviation-Population-Macro...
ありがとうございます。色々勉強になりました。
この標準偏差の言葉の使い方なのですが、色々と調べつつ記載してまして、最終的にはこちらのサイトの内容を考慮した書き方になっています。
https://biolab.sakura.ne.jp/variance.html
結構定義があいまいなので、nで割る標準偏差/分散、n-1で割る標準偏差/分散といった方が誤りにくそうではありますね・・・。
Excel的にSTDEV.Pなのか、STDEV.Sなのか、といった方が正直わかりやすい気がしています。
なので、いっそのこと、母集団の標準偏差と標本の標準偏差、などとどこに対しての標準偏差なのかを明確に示す書き方の方が良いかもしれませんね・・・。
@AkimasaKajitani
夜分遅くご回答ありがとうございます。私もまだ仕事やっていますが…。
ややこしいですね…。ここら辺自分は詳しくないので、色々勉強になります。
回答します!
AlteryxのVarianceは不偏分散だったのですね。知りませんでした。
集合演算が入ったSQLクエリーは読む気なくなってくるので、Alteryxがいいです。
メモ
初心者はいったん標本~系は飛ばしてもよさそう