一般社団法人データサイエンティスト協会から公開されているデータサイエンス100本ノック 構造化データ加工編のウィークリーチャレンジ方式による出題第7回目は33問目~38問目を一つにまとめてみました。今回はデータ抽出、データ結合で比較的素直な問題が多いかと思います。
P-033: レシート明細データ(receipt.csv)に対し、店舗コード(store_cd)ごとに売上金額(amount)の平均を計算し、330以上のものを抽出せよ。
※結果はstore_cdの昇順に並べ替えること
P-035: レシート明細データ(receipt.csv)に対し、顧客ID(customer_id)ごとに売上金額(amount)を合計して全顧客の平均を求め、平均以上に買い物をしている顧客を抽出し、10件表示せよ。ただし、顧客IDが"Z"から始まるものは非会員を表すため、除外して計算すること。
※出力結果は、顧客ID(customer_id)の昇順で並び替えて出力してください(Alteryxオリジナル条件)
P-037: 商品データ(product.csv)とカテゴリデータ(category.csv)を内部結合し、商品データの全項目とカテゴリデータのカテゴリ小区分名(category_small_name)を10件表示せよ。
※出力結果は、product_cdの昇順としてください
P-036: レシート明細データ(receipt.csv)と店舗データ(store.csv)を内部結合し、レシート明細データの全項目と店舗データの店舗名(store_name)を10件表示せよ。
※出力結果は、元のreceipt.csvの並びのままとしてください(Alteryxオリジナル条件)
P-038: 顧客データ(customer.csv)とレシート明細データ(receipt.csv)から、顧客ごとの売上金額合計を求め、10件表示せよ。ただし、売上実績がない顧客については売上金額を0として表示させること。また、顧客は性別コード(gender_cd)が女性(1)であるものを対象とし、非会員(顧客IDが"Z"から始まるもの)は除外すること。
※出力データの並びは、customer.csvのデータ順とする
※36と37は意図的に順序を変えています
解いたらこちらに投稿していただければと思います。ちなみに、次回投稿は一週間後を予定しています。
solutionファイルは次回添付します。
添付ファイルは今回の出題のstartファイルと、前回のsolutionファイルです。
前回:データサイエンス100本ノック 構造化データ加工編をAlteryxでやってみる(27問目~32問目:統計量計算編)
※customer.csvが含まれていなかったので、更新しました
できました!
yxzp,yxmd形式のファイルのアップロードができないため、キャプチャ画像のみUPします。