Free Trial

ブログ

アナリティクスに関する聡明な考えに触れ、インサイトとアイデアが得られます。
AkimasaKajitani
17 - Castor
17 - Castor

「データサイエンス100本ノック(構造化データ加工編)」をご存知でしょうか?

 

「データサイエンス100本ノック(構造化データ加工編)」は、一般社団法人データサイエンティスト協会さんが無償でGitHubにて公開されている、データサイエンスの学習コンテンツです。Python/R/SQL向けに100問、実際の利用場面に即した問題を解いていく、という内容になっています。

 

元々GitHubの方でDockerで配布されていますので、そこからデータを抽出すれば普通に利用できますが、Dockerという馴染みのないもので、準備に結構手間がかかるかと思います。

そこで、私の方でAlteryx向けにウィークリーチャレンジのようなStartファイルとSolutionファイル形式にし、20227月から一週間ごとに投稿しました。

 

もちろん、ディスカッションに投稿しているので、みなさんが実際に解答した結果をみんなで共有できるような形になっています。

 

学習できる内容について

内容については、公開されている公式のガイドによると、以下のようなコンテンツとなっています。

 

No.

大区分

設問数

1

列に対する操作

3

2

行に対する操作

6

3

あいまい条件

7

4

ソート

4

5

集計

13

6

副問合せ

2

7

結合

7

8

縦横変換

2

9

データ変換

14

10

数値変換

4

11

四則演算

7

12

日付型の計算

5

13

サンプリング

2

14

外れ値・異常値

2

15

欠損値

5

16

乗算エラー対応

1

17

座標データ

2

18

名寄せ

2

19

データ分割

2

20

不均衡データ

1

21

正規化・非正規化

2

22

ファイル入出力

7

 

もう少しコンテンツを詳細に見ていくと以下のようになります。

  • 項目の削除、項目名の変更
  • ソート
  • サンプリング
  • 抽出(一致、前方一致、後方一致、値比較、桁数一致、TopN、ランダム、層化抽出、外れ値)
  • 順位付け
  • レコード数カウント
  • ユニーク化
  • 四則演算
  • レコード間計算
  • 集計(合計、最頻値、平均、中央値、分散、標準偏差、パーセンタイル)
  • 日付(最新、最古、形式変換、年月日の個別抽出、経過日数・月数・年数・秒数計算、曜日
  • 結合(内部結合、完全外部結合、レコードをずらして結合
  • データ補完(Null0に、平均値、中央値)
  • 組み合わせ取得
  • クロス集計
  • 横持ち、縦持ち変換
  • 階級
  • 二値化、コード値
  • 四分位
  • ダミー変数化
  • 標準化、正規化
  • 常用対数化、自然対数化
  • 消費税計算
  • 小数点処理(切り捨て、切り上げ、四捨五入)
  • IQR
  • 欠損数確認
  • 欠損データ削除
  • 割合計算
  • 距離計算
  • 名寄せ
  • 予測モデル作成のためのデータ分割
  • アンダーサンプリング
  • 第三正規化、非正規化
  • ファイル入力、出力(CSVTSV、文字コード)

  

このコンテンツで学習できる内容は、Alteryxの初学者には非常に良い内容ではないかと思います。ウィークリーチャレンジも体系的に進めるものではなく、ユースケースの切り口から解いていくものですので、少し慣れないと難しく感じるかと思います。そのため、そこにたどり着くまでのつなぎとしては非常に良い教材です。

 

また、データ準備に必要な内容から、統計的なところまで幅広くカバーされているため、初学者以外の方も、知識として抜けていそうな部分についてはやってみても良いコンテンツかと思います。

 

コンテンツはどこにあるか

コミュニティ上にアップロードしたディスカッションリストは以下のとおりです。リンクから飛んでいただくか、タグ「データサイエンス100本ノック」でフィルタリング可能です。

 

 

あるツールの使い方の使用例を見てみたい、という風にツール名指しでチャレンジしたいということであれば、TableauPublicにダッシュボードとして公開していますので、そちらでインタラクティブに確認いただくこともできます。

 

DataScienceKnock100_Dasboard.png

まとめ

  • データ準備から統計まで幅広い知識を身につけることができます
  • インタラクティブレッスンからウィークリーチャレンジまでの間をつなぐ学習コンテンツとして有用です
  • フリーのコンテンツなので企業内で自由に利用可能です

 

ユーザー会でも発表していますので、その時の資料もご確認いただけます。

 

なお、各問題についての詳細な解説は個人ブログの方で詳細に解説しております。解く際の解説を見たい方は参照していただければと思います。

 

Akimasa Kajitani
Manager, Data Solution Dept.

I like to help people who are having trouble using Alteryx and focusing on improving the everyone's Alteryx skill. And I’m exploring how far we can go with no code or with code using Alteryx. My companiy's blog : https://newssdx.kcme.jp/

I like to help people who are having trouble using Alteryx and focusing on improving the everyone's Alteryx skill. And I’m exploring how far we can go with no code or with code using Alteryx. My companiy's blog : https://newssdx.kcme.jp/