Free Trial

ディスカッション

答えを見つけ、質問し、Alteryx の専門知識を共有してください。

データサイエンス100本ノック 構造化データ加工編をAlteryxでやってみる(79問目~83問目:欠損値処理編)

AkimasaKajitani
17 - Castor
17 - Castor

一般社団法人データサイエンティスト協会から公開されているデータサイエンス100本ノック 構造化データ加工編のウィークリーチャレンジ方式による出題第15回目は79問目~83問目を一つにまとめてみました。今回は欠損値処理の問題です。

 

  • P-079: 商品データ(product.csv)の各項目に対し、欠損数を確認せよ。

    ※出力結果は、フィールド名の昇順で出力すること

  • P-080: 商品データ(product.csv)のいずれかの項目に欠損が発生しているレコードを全て削除した新たな商品データを作成せよ。なお、削除前後の件数を表示させ、079で確認した件数だけ減少していることも確認すること。

  • P-081: 商品データ(product.csv)の単価(unit_price)と原価(unit_cost)の欠損値について、それぞれの平均値で補完した新たな商品データを作成せよ。なお、平均値については1円未満を丸めること(四捨五入または偶数への丸めで良い)。補完実施後、各項目について欠損が生じていないことも確認すること。

  • P-082: 商品データ(product.csv)の単価(unit_price)と原価(unit_cost)の欠損値について、それぞれの中央値で補完した新たな商品データを作成せよ。なお、中央値については1円未満を丸めること(四捨五入または偶数への丸めで良い)。補完実施後、各項目について欠損が生じていないことも確認すること。

  • P-083: 商品データ(product.csv)の単価(unit_price)と原価(unit_cost)の欠損値について、各商品のカテゴリ小区分コード(category_small_cd)ごとに算出した中央値で補完した新たな商品データを作成せよ。なお、中央値については1円未満を丸めること(四捨五入または偶数への丸めで良い)。補完実施後、各項目について欠損が生じていないことも確認すること。

    ※結果はproduct_cdの昇順で並び替えること

解いたらこちらに投稿していただければと思います。ちなみに、次回投稿は一週間後を予定しています。

 

solutionファイルは次回添付します。

 

添付ファイルは今回の出題のstartファイルと、前回のsolutionファイルです。

 

前回:データサイエンス100本ノック 構造化データ加工編をAlteryxでやってみる(75問目~78問目:データ抽出編)

3件の返信3
DaisukeTsuchiya
パルサー

ようやく八合目到達!

 

スポイラ
インピューテーションという機能を初めて知りました。便利ですね。

キャプチャ.JPG

AkimasaKajitani
17 - Castor
17 - Castor

できました!

 

スポイラ
AkimasaKajitani_0-1667610252814.png
AkimasaKajitani_1-1667610276371.png
AkimasaKajitani_2-1667610303166.png

インピュテーション、グループで使えればめちゃくちゃ便利なのに、、、意外とほしい時に使えない、ってことが多くて、、、

 

yyokoyama
アステロイド

提出します。欠損確認方法が解説と若干違いましたが、目的は合っているはずなのでこのままにしました。