一般社団法人データサイエンティスト協会から公開されているデータサイエンス100本ノック 構造化データ加工編のウィークリーチャレンジ方式による出題第6回目は27問目~32問目を一つにまとめてみました。今回は統計量の計算です。標準偏差、分散は少し厄介な問題です。
P-029: レシート明細データ(receipt.csv)に対し、店舗コード(store_cd)ごとに商品コード(product_cd)の最頻値を求め、10件表示させよ。
※出力データは、店舗コード(store_cd)の昇順で並べ、10件を表示すること
P-030: レシート明細データ(receipt.csv)に対し、店舗コード(store_cd)ごとに売上金額(amount)の分散を計算し、降順で5件表示せよ。
※不偏分散をまず出力しましょう。余裕があれば標本分散にもチャレンジしてください
P-031: レシート明細データ(receipt.csv)に対し、店舗コード(store_cd)ごとに売上金額(amount)の標準偏差を計算し、降順で5件表示せよ。
※不偏標準偏差(標本標準偏差)をまず出力しましょう。余裕があれば標準偏差にもチャレンジしてください
P-032: レシート明細データ(receipt.csv)の売上金額(amount)について、25%刻みでパーセンタイル値を求めよ。
※データの持ち方として、横持ち(パーセンタイルと各フィールドとして持つ)と縦持ち(パーセンタイルと値のリストとして持つ)の二つのタイプでデータを整形してください
解いたらこちらに投稿していただければと思います。ちなみに、次回投稿は一週間後を予定しています。
solutionファイルは次回添付します。
添付ファイルは今回の出題のstartファイルと、前回のsolutionファイルです。
前回:データサイエンス100本ノック 構造化データ加工編をAlteryxでやってみる(21問目~26問目:データ抽出中級+カウント編)