ディスカッション

AkimasaKajitani · ‎10-29-2022

一般社団法人データサイエンティスト協会から公開されているデータサイエンス100本ノック構造化データ加工編のウィークリーチャレンジ方式による出題第１５回目は79問目～83問目を一つにまとめてみました。今回は欠損値処理の問題です。

P-079: 商品データ（product.csv）の各項目に対し、欠損数を確認せよ。
※出力結果は、フィールド名の昇順で出力すること
P-080: 商品データ（product.csv）のいずれかの項目に欠損が発生しているレコードを全て削除した新たな商品データを作成せよ。なお、削除前後の件数を表示させ、079で確認した件数だけ減少していることも確認すること。
P-081: 商品データ（product.csv）の単価（unit_price）と原価（unit_cost）の欠損値について、それぞれの平均値で補完した新たな商品データを作成せよ。なお、平均値については1円未満を丸めること（四捨五入または偶数への丸めで良い）。補完実施後、各項目について欠損が生じていないことも確認すること。
P-082: 商品データ（product.csv）の単価（unit_price）と原価（unit_cost）の欠損値について、それぞれの中央値で補完した新たな商品データを作成せよ。なお、中央値については1円未満を丸めること（四捨五入または偶数への丸めで良い）。補完実施後、各項目について欠損が生じていないことも確認すること。
P-083: 商品データ（product.csv）の単価（unit_price）と原価（unit_cost）の欠損値について、各商品のカテゴリ小区分コード（category_small_cd）ごとに算出した中央値で補完した新たな商品データを作成せよ。なお、中央値については1円未満を丸めること（四捨五入または偶数への丸めで良い）。補完実施後、各項目について欠損が生じていないことも確認すること。
※結果はproduct_cdの昇順で並び替えること

解いたらこちらに投稿していただければと思います。ちなみに、次回投稿は一週間後を予定しています。

solutionファイルは次回添付します。

添付ファイルは今回の出題のstartファイルと、前回のsolutionファイルです。

前回：データサイエンス100本ノック構造化データ加工編をAlteryxでやってみる（75問目～78問目：データ抽出編）

DaisukeTsuchiya · ‎10-29-2022

ようやく八合目到達！

スポイラ

インピューテーションという機能を初めて知りました。便利ですね。

キャプチャ.JPG

AkimasaKajitani · ‎11-04-2022

できました！

スポイラ

インピュテーション、グループで使えればめちゃくちゃ便利なのに、、、意外とほしい時に使えない、ってことが多くて、、、

yyokoyama · ‎12-12-2023

提出します。欠損確認方法が解説と若干違いましたが、目的は合っているはずなのでこのままにしました。

ディスカッション

データサイエンス100本ノック構造化データ加工編をAlteryxでやってみる（79問目～83問目：欠損値処理編）

Shape Fileで日本語のフィールド名を使いたい件をIdeaに投稿しました

日本語版コミュニティへようこそ!

Alteryx Skills labのお知らせ

【バグ関連】2020.3にてExcelファイルのパスに２バイト文字を含むと保存できないようです

データサイエンス100本ノック構造化データ加工編をAlteryxでやってみる（１問目～４問目：デー...

ディスカッション

データサイエンス100本ノック 構造化データ加工編をAlteryxでやってみる（79問目～83問目：欠損値処理編）

Shape Fileで日本語のフィールド名を使いたい件をIdeaに投稿しました

日本語版コミュニティへようこそ!

Alteryx Skills labのお知らせ

【バグ関連】2020.3にてExcelファイルのパスに２バイト文字を含むと保存できないようです

データサイエンス100本ノック 構造化データ加工編をAlteryxでやってみる（１問目～４問目：デー...

データサイエンス100本ノック構造化データ加工編をAlteryxでやってみる（79問目～83問目：欠損値処理編）

データサイエンス100本ノック構造化データ加工編をAlteryxでやってみる（１問目～４問目：デー...