一般社団法人データサイエンティスト協会から公開されているデータサイエンス100本ノック 構造化データ加工編のウィークリーチャレンジ方式による出題ラストの第19回目は93問目~100問目を一つにまとめてみました。今回は非正規化・ファイル入出力問題です。
P-093: 商品データ(product.csv)では各カテゴリのコード値だけを保有し、カテゴリ名は保有していない。カテゴリデータ(category.csv)と組み合わせて非正規化し、カテゴリ名を保有した新たな商品データを作成せよ。
※結果は、product_cdの昇順でソートし、先頭から10レコードを取得すること
P-094: 093で作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。
ファイル形式:CSV(カンマ区切り)
ヘッダ有無:有り
文字エンコーディング:UTF-8
P-095: 093で作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。
ファイル形式:CSV(カンマ区切り)
ヘッダ有無:有り
文字エンコーディング:CP932
P-096: 093で作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。
ファイル形式:CSV(カンマ区切り)
ヘッダ有無:無し
文字エンコーディング:UTF-8
P-097: 094で作成した以下形式のファイルを読み込み、データを3件を表示させて正しく取り込まれていることを確認せよ。
ファイル形式:CSV(カンマ区切り)
ヘッダ有無:有り
文字エンコーディング:UTF-8
P-098: 096で作成した以下形式のファイルを読み込み、データを3件を表示させて正しく取り込まれていることを確認せよ。
ファイル形式:CSV(カンマ区切り)
ヘッダ有無:無し
文字エンコーディング:UTF-8
P-099: 093で作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。
ファイル形式:TSV(タブ区切り)
ヘッダ有無:有り
文字エンコーディング:UTF-8
P-100: 099で作成した以下形式のファイルを読み込み、データを3件を表示させて正しく取り込まれていることを確認せよ。
ファイル形式:TSV(タブ区切り)
ヘッダ有無:有り
文字エンコーディング:UTF-8
解いたらこちらに投稿していただければと思います。今回最終となります。ご参加頂いた方々、100問完走お疲れ様でした!
solutionファイルは今回添付しています。
添付ファイルは今回の出題のstartファイルと、前回・今回のsolutionファイルです。
前回:データサイエンス100本ノック 構造化データ加工編をAlteryxでやってみる(89問目~92問目:予測のためのデータ準備編)
やはりデータ形式を正しく設定しないとだめなことを改めて理解できました。