一般社団法人データサイエンティスト協会から公開されているデータサイエンス100本ノック 構造化データ加工編のウィークリーチャレンジ方式による出題第4回目は16問目~20問目を一つにまとめてみました。データ抽出に加えて、順位付けの問題も出てきました!
※19問目、20問目は、難易度の関係で順番を入れ替えております
解いたらこちらに投稿していただければと思います。ちなみに、次回投稿は一週間後を予定しています。
solutionファイルは次回添付します。
添付ファイルは今回の出題のstartファイルと、前回のsolutionファイルです。
前回:データサイエンス100本ノック 構造化データ加工編をAlteryxでやってみる(10問目~15問目:データ抽出基礎編)
できました。(どうもファイルがアップロードできないので、今回も画面コピーのみでの提出です。)
16問目:解答データのフィールドが1個一致しませんでしたが、OKとしました。
19問目:R言語だとmin_rank関数で簡単にできますが、Alteryxにはないので、
レコードIDツールと複数行フォーミュラツールの組み合わせで解決しました。
(ヒントにあったタイルツールでの解法も試してみましたがわかりませんでした)
17問目
18問目
20問目
19問目
できました!
16問目:解答データのフィールドが1個一致しませんでしたが、OKとしました。
→ はい、問題ないと思います!もとの100本ノックにもこの項目があったのでそのままやっています。
19問目:R言語だとmin_rank関数で簡単にできますが、Alteryxにはないので、
レコードIDツールと複数行フォーミュラツールの組み合わせで解決しました。
(ヒントにあったタイルツールでの解法も試してみましたがわかりませんでした)
→タイルのTile_SequenceNumが複数行フォーミュラと同じように出てくるので、、、設定量が減るくらいの効果くらいしかないですね・・・
ランキングの取り方でもう一つメジャーなのがありますよね。1,2,3,3,3,4,4,4,みたいな感じで19問目みたいに番号が飛ばないバージョンですね。そのあたりもやっていればだいたい網羅できるのかな、と思います。
> 1,2,3,3,3,4,4,4,みたいな感じで19問目みたいに番号が飛ばないバージョン
'dense rank' ですね。
19問目のMulti Row Formulaの式を少し変えたらできました。
R にはほかにもランキングについての関数があるので、Alteryxで試してみると面白いかもしれませんね。
https://dplyr.tidyverse.org/reference/ranking.html
実はこの問題(Dense Rankって言うんですね・・・)は、過去のウィークリーチャレンジでもありました。
元の問題よりこちらの方が実は簡単ですね、、、