一般社団法人データサイエンティスト協会から公開されているデータサイエンス100本ノック 構造化データ加工編のウィークリーチャレンジ方式による出題第17回目は87問目~88問目を一つにまとめてみました。今回は名寄せ問題です。
P-087: 顧客データ(customer.csv)では、異なる店舗での申込みなどにより同一顧客が複数登録されている。名前(customer_name)と郵便番号(postal_cd)が同じ顧客は同一顧客とみなして1顧客1レコードとなるように名寄せした名寄顧客データを作成し、顧客データの件数、名寄顧客データの件数、重複数を算出せよ。ただし、同一顧客に対しては売上金額合計が最も高いものを残し、売上金額合計が同一もしくは売上実績がない顧客については顧客ID(customer_id)の番号が小さいものを残すこととする。
P-088: 087で作成したデータを元に、顧客データに統合名寄IDを付与したデータを作成せよ。ただし、統合名寄IDは以下の仕様で付与するものとする。
・重複していない顧客:顧客ID(customer_id)を設定
・重複している顧客:前設問で抽出したレコードの顧客IDを設定
顧客IDのユニーク件数と、統合名寄IDのユニーク件数の差も確認すること。
解いたらこちらに投稿していただければと思います。ちなみに、次回投稿は一週間後を予定しています。
solutionファイルは次回添付します。
添付ファイルは今回の出題のstartファイルと、前回のsolutionファイルです。
前回:データサイエンス100本ノック 構造化データ加工編をAlteryxでやってみる(84問目~86問目:複合問題・空間問題編)
回答します。
(.yxzp が添付できない事象がまた起こっているため .yxmd で提出いたします)
Pー088は最初Multi-Row Formulaツールでやってみたのですがうまくういかず
Joinし直すことにしたためワークフローが長くなってしまいました。
おそらくもっと良い方法があると思うのですがこれで提出します。
@AkimasaKajitani
失礼しました。正しいファイルを添付します。
@DaisukeTsuchiya さん Alteryx Communityの投稿は基本的に投稿してから24時間超えると編集できなくなるようです・・・。