ディスカッション

AkimasaKajitani · ‎08-27-2022

一般社団法人データサイエンティスト協会から公開されているデータサイエンス100本ノック構造化データ加工編のウィークリーチャレンジ方式による出題第６回目は27問目～32問目を一つにまとめてみました。今回は統計量の計算です。標準偏差、分散は少し厄介な問題です。

P-027: レシート明細データ（receipt.csv）に対し、店舗コード（store_cd）ごとに売上金額（amount）の平均を計算し、降順でTOP5を表示せよ。
P-028: レシート明細データ（receipt.csv）に対し、店舗コード（store_cd）ごとに売上金額（amount）の中央値を計算し、降順でTOP5を表示せよ。
P-029: レシート明細データ（receipt.csv）に対し、店舗コード（store_cd）ごとに商品コード（product_cd）の最頻値を求め、10件表示させよ。
※出力データは、店舗コード（store_cd）の昇順で並べ、10件を表示すること
P-030: レシート明細データ（receipt.csv）に対し、店舗コード（store_cd）ごとに売上金額（amount）の分散を計算し、降順で5件表示せよ。
※不偏分散をまず出力しましょう。余裕があれば標本分散にもチャレンジしてください
P-031: レシート明細データ（receipt.csv）に対し、店舗コード（store_cd）ごとに売上金額（amount）の標準偏差を計算し、降順で5件表示せよ。
※不偏標準偏差（標本標準偏差）をまず出力しましょう。余裕があれば標準偏差にもチャレンジしてください
P-032: レシート明細データ（receipt.csv）の売上金額（amount）について、25％刻みでパーセンタイル値を求めよ。
※データの持ち方として、横持ち（パーセンタイルと各フィールドとして持つ）と縦持ち（パーセンタイルと値のリストとして持つ）の二つのタイプでデータを整形してください

解いたらこちらに投稿していただければと思います。ちなみに、次回投稿は一週間後を予定しています。

solutionファイルは次回添付します。

添付ファイルは今回の出題のstartファイルと、前回のsolutionファイルです。

前回：データサイエンス100本ノック構造化データ加工編をAlteryxでやってみる（21問目～26問目：データ抽出中級＋カウント編）

Yoshiro_Fujimori · ‎08-29-2022

今週もありがとうございます。

以下回答します。

今回の学び：∑ツールは一度Runしないと入力データのデータ型を認識しない
今回の苦労：Double型の結果比較は丸め誤差で一致しないことがあるが、合わせるのは難しい（ので見た目あっていればOKとしました）

スポイラ

問27

問28

問29

問30：Expect Equalツールでテストすると一致しませんでしたが、丸め誤差と解釈してOKとしました。

問31：同上

問32

問27問28問29問30：Expect Equalツールでテストすると一致しませんでしたが、丸め誤差と解釈してOKとしました。問31：同上問32

Qiu · ‎08-29-2022

やってみました。

AlteryxのStandard DeviationやStandard VarianceはPopulationでなく、Sampleであることを勉強になりました。
https://community.alteryx.com/t5/Alteryx-Designer-Knowledge-Base/Standard-Deviation-Population-Macro...

スポイラ

DaisukeTsuchiya · ‎08-30-2022

ありがとうございます。色々勉強になりました。

スポイラ

換算をしたのですが、Doubleだと完全一致しなかったです。
不偏と標準の違いについて勉強になりました。

キャプチャ.JPG

ちなみに31問目の＊表記の部分合っていますでしょうか？　不偏に対して標本ではないでしょうか？

キャプチャ2.JPG

換算をしたのですが、Doubleだと完全一致しなかったです。不偏と標準の違いについて勉強になりました。ちなみに31問目の＊表記の部分合っていますでしょうか？　不偏に対して標本ではないでしょうか？

AkimasaKajitani · ‎08-30-2022

@DaisukeTsuchiya さん

この標準偏差の言葉の使い方なのですが、色々と調べつつ記載してまして、最終的にはこちらのサイトの内容を考慮した書き方になっています。

https://biolab.sakura.ne.jp/variance.html

結構定義があいまいなので、nで割る標準偏差/分散、n-1で割る標準偏差/分散といった方が誤りにくそうではありますね・・・。

Excel的にSTDEV.Pなのか、STDEV.Sなのか、といった方が正直わかりやすい気がしています。

なので、いっそのこと、母集団の標準偏差と標本の標準偏差、などとどこに対しての標準偏差なのかを明確に示す書き方の方が良いかもしれませんね・・・。

DaisukeTsuchiya · ‎08-30-2022

@AkimasaKajitani

夜分遅くご回答ありがとうございます。私もまだ仕事やっていますが…。
ややこしいですね…。ここら辺自分は詳しくないので、色々勉強になります。

AkimasaKajitani · ‎09-01-2022

ちょっと言葉を整理したstartファイルをアップします（トピックの編集がもうできないので返信という形にします）。

AkimasaKajitani · ‎09-03-2022

できました！今回はちょっと問題数も多くて大変だったかもしれません・・・。

スポイラ

nで割る系の分散・標準偏差が合わない方へ：

スポイラ

定義通りやると値がズレないと思います。

分散の定義：

標準偏差の定義：

この方法でやれば、元のPython版の数値ともあいます！

定義通りやると値がズレないと思います。分散の定義：標準偏差の定義：この方法でやれば、元のPython版の数値ともあいます！

Masao · ‎11-25-2022

回答します！

スポイラ

集計ツールはこういうふうに使うのか！と皆さんの回答を見て勉強しています。32問目は集計ツールだけで答えが出せるのでびっくりです。

集計ツールはこういうふうに使うのか！と皆さんの回答を見て勉強しています。32問目は集計ツールだけで答えが出せるのでびっくりです。

gawa · ‎10-19-2023

AlteryxのVarianceは不偏分散だったのですね。知りませんでした。

集合演算が入ったSQLクエリーは読む気なくなってくるので、Alteryxがいいです。

スポイラ

メモ

初心者はいったん標本～系は飛ばしてもよさそう

ディスカッション

データサイエンス100本ノック 構造化データ加工編をAlteryxでやってみる（27問目～32問目：統計量計算編）

データサイエンス100本ノック構造化データ加工編をAlteryxでやってみる（27問目～32問目：統計量計算編）