Free Trial

ディスカッション

答えを見つけ、質問し、Alteryx の専門知識を共有してください。

データサイエンス100本ノック 構造化データ加工編をAlteryxでやってみる(87問目~88問目:名寄せ編)

AkimasaKajitani
17 - Castor
17 - Castor

一般社団法人データサイエンティスト協会から公開されているデータサイエンス100本ノック 構造化データ加工編のウィークリーチャレンジ方式による出題第17回目は87問目~88問目を一つにまとめてみました。今回は名寄せ問題です。

 

  • P-087: 顧客データ(customer.csv)では、異なる店舗での申込みなどにより同一顧客が複数登録されている。名前(customer_name)と郵便番号(postal_cd)が同じ顧客は同一顧客とみなして1顧客1レコードとなるように名寄せした名寄顧客データを作成し、顧客データの件数、名寄顧客データの件数、重複数を算出せよ。ただし、同一顧客に対しては売上金額合計が最も高いものを残し、売上金額合計が同一もしくは売上実績がない顧客については顧客ID(customer_id)の番号が小さいものを残すこととする。

  • P-088: 087で作成したデータを元に、顧客データに統合名寄IDを付与したデータを作成せよ。ただし、統合名寄IDは以下の仕様で付与するものとする。

    ・重複していない顧客:顧客ID(customer_id)を設定
    ・重複している顧客:前設問で抽出したレコードの顧客IDを設定

    顧客IDのユニーク件数と、統合名寄IDのユニーク件数の差も確認すること。

 

解いたらこちらに投稿していただければと思います。ちなみに、次回投稿は一週間後を予定しています。

 

solutionファイルは次回添付します。

 

添付ファイルは今回の出題のstartファイルと、前回のsolutionファイルです。

 

前回:データサイエンス100本ノック 構造化データ加工編をAlteryxでやってみる(84問目~86問目:複合問題・空間問題編)

7件の返信7
DaisukeTsuchiya
パルサー

できました。問題の意味がやや分かりづらかったですが、ワークフロー自体は比較的簡単でした。

 

スポイラ
キャプチャ.JPG

 

Yoshiro_Fujimori
オーロラ

回答します。

(.yxzp が添付できない事象がまた起こっているため .yxmd で提出いたします)

スポイラ

Pー088は最初Multi-Row Formulaツールでやってみたのですがうまくういかず
Joinし直すことにしたためワークフローが長くなってしまいました。


おそらくもっと良い方法があると思うのですがこれで提出します。

Yoshiro_Fujimori_0-1668477070613.png

 

AkimasaKajitani
17 - Castor
17 - Castor

できました!

 

スポイラ
AkimasaKajitani_0-1668831963307.png
AkimasaKajitani_1-1668831982552.png

 

 

@DaisukeTsuchiya さん なんだか一つ前の問題をアップされているように思います・・・。

 

 

 

ところで、あと2回でこのシリーズも完了です!

DaisukeTsuchiya
パルサー

@AkimasaKajitani 

失礼しました。正しいファイルを添付します。

DaisukeTsuchiya
パルサー

@AkimasaKajitani 

すみません、スポイラーの中身も間違っていました。最初の投稿がなぜか編集できないので、改めて投稿します。

 

スポイラ
キャプチャ.JPG

 

AkimasaKajitani
17 - Castor
17 - Castor

@DaisukeTsuchiya さん Alteryx Communityの投稿は基本的に投稿してから24時間超えると編集できなくなるようです・・・。

 

yyokoyama
アステロイド

提出します。問題文の意図が分からず、解説を読んでやっと理解できました。