Community Spring Cleaning week is here! Join your fellow Maveryx in digging through your old posts and marking comments on them as solved. Learn more here!
Free Trial

ディスカッション

答えを見つけ、質問し、Alteryx の専門知識を共有してください。

データサイエンス100本ノック 構造化データ加工編をAlteryxでやってみる(79問目~83問目:欠損値処理編)

AkimasaKajitani
17 - Castor
17 - Castor

一般社団法人データサイエンティスト協会から公開されているデータサイエンス100本ノック 構造化データ加工編のウィークリーチャレンジ方式による出題第15回目は79問目~83問目を一つにまとめてみました。今回は欠損値処理の問題です。

 

  • P-079: 商品データ(product.csv)の各項目に対し、欠損数を確認せよ。

    ※出力結果は、フィールド名の昇順で出力すること

  • P-080: 商品データ(product.csv)のいずれかの項目に欠損が発生しているレコードを全て削除した新たな商品データを作成せよ。なお、削除前後の件数を表示させ、079で確認した件数だけ減少していることも確認すること。

  • P-081: 商品データ(product.csv)の単価(unit_price)と原価(unit_cost)の欠損値について、それぞれの平均値で補完した新たな商品データを作成せよ。なお、平均値については1円未満を丸めること(四捨五入または偶数への丸めで良い)。補完実施後、各項目について欠損が生じていないことも確認すること。

  • P-082: 商品データ(product.csv)の単価(unit_price)と原価(unit_cost)の欠損値について、それぞれの中央値で補完した新たな商品データを作成せよ。なお、中央値については1円未満を丸めること(四捨五入または偶数への丸めで良い)。補完実施後、各項目について欠損が生じていないことも確認すること。

  • P-083: 商品データ(product.csv)の単価(unit_price)と原価(unit_cost)の欠損値について、各商品のカテゴリ小区分コード(category_small_cd)ごとに算出した中央値で補完した新たな商品データを作成せよ。なお、中央値については1円未満を丸めること(四捨五入または偶数への丸めで良い)。補完実施後、各項目について欠損が生じていないことも確認すること。

    ※結果はproduct_cdの昇順で並び替えること

解いたらこちらに投稿していただければと思います。ちなみに、次回投稿は一週間後を予定しています。

 

solutionファイルは次回添付します。

 

添付ファイルは今回の出題のstartファイルと、前回のsolutionファイルです。

 

前回:データサイエンス100本ノック 構造化データ加工編をAlteryxでやってみる(75問目~78問目:データ抽出編)

3件の返信3
DaisukeTsuchiya
パルサー

ようやく八合目到達!

 

スポイラ
インピューテーションという機能を初めて知りました。便利ですね。

キャプチャ.JPG

AkimasaKajitani
17 - Castor
17 - Castor

できました!

 

スポイラ
AkimasaKajitani_0-1667610252814.png
AkimasaKajitani_1-1667610276371.png
AkimasaKajitani_2-1667610303166.png

インピュテーション、グループで使えればめちゃくちゃ便利なのに、、、意外とほしい時に使えない、ってことが多くて、、、

 

yyokoyama
アステロイド

提出します。欠損確認方法が解説と若干違いましたが、目的は合っているはずなのでこのままにしました。