一般社団法人データサイエンティスト協会から公開されているデータサイエンス100本ノック 構造化データ加工編のウィークリーチャレンジ方式による出題第7回目は33問目~38問目を一つにまとめてみました。今回はデータ抽出、データ結合で比較的素直な問題が多いかと思います。
P-033: レシート明細データ(receipt.csv)に対し、店舗コード(store_cd)ごとに売上金額(amount)の平均を計算し、330以上のものを抽出せよ。
※結果はstore_cdの昇順に並べ替えること
P-035: レシート明細データ(receipt.csv)に対し、顧客ID(customer_id)ごとに売上金額(amount)を合計して全顧客の平均を求め、平均以上に買い物をしている顧客を抽出し、10件表示せよ。ただし、顧客IDが"Z"から始まるものは非会員を表すため、除外して計算すること。
※出力結果は、顧客ID(customer_id)の昇順で並び替えて出力してください(Alteryxオリジナル条件)
P-037: 商品データ(product.csv)とカテゴリデータ(category.csv)を内部結合し、商品データの全項目とカテゴリデータのカテゴリ小区分名(category_small_name)を10件表示せよ。
※出力結果は、product_cdの昇順としてください
P-036: レシート明細データ(receipt.csv)と店舗データ(store.csv)を内部結合し、レシート明細データの全項目と店舗データの店舗名(store_name)を10件表示せよ。
※出力結果は、元のreceipt.csvの並びのままとしてください(Alteryxオリジナル条件)
P-038: 顧客データ(customer.csv)とレシート明細データ(receipt.csv)から、顧客ごとの売上金額合計を求め、10件表示せよ。ただし、売上実績がない顧客については売上金額を0として表示させること。また、顧客は性別コード(gender_cd)が女性(1)であるものを対象とし、非会員(顧客IDが"Z"から始まるもの)は除外すること。
※出力データの並びは、customer.csvのデータ順とする
※36と37は意図的に順序を変えています
解いたらこちらに投稿していただければと思います。ちなみに、次回投稿は一週間後を予定しています。
solutionファイルは次回添付します。
添付ファイルは今回の出題のstartファイルと、前回のsolutionファイルです。
前回:データサイエンス100本ノック 構造化データ加工編をAlteryxでやってみる(27問目~32問目:統計量計算編)
※customer.csvが含まれていなかったので、更新しました
やってみました。
できました!
他の方の解答を見ていたらレコード選択ツールなどというものがあることに気づきました。ピンポイントで狙えるんですね。
「準備」のツールセットの中に入っていないので存在そのものに気づいていませんでした。。。