先週のチャレンジに対する解答はこちらです。
日本語版ウィークリーチャレンジ100問目突破記念、第四弾は@Tokimatsuさんから2問目の出題です。
テキスト入力ツールに含まれているURLからデータをダウンロードし、Simple English Wikipedia で使われている単語850をリストアップして頭文字で索引を作り、索引ごとの単語数を出してください。
Source: Giphy
いわゆるスクレイピングの問題ですね・・・。
これはもう正規表現祭りでした!
結構いやらしいひっかけがあって一筋縄ではいかないですね・・・。
列分割とか使ってると区切り文字で思い切りひっかかったので、正規表現のトークナイズが活躍しました。
@Tokimatsuさん採用おめでとうございます!
正規表現でやってみましたなぜかスポイラの挿入ができなくなってしまいましたので、ファイルだけアップロードします。
@gawa さん
解答を拝見しました。
綺麗に解かれていますね。Alteryxを使い始めてまだ2ヶ月ちょっとだと思うのですが、メキメキ腕を上げていますね。脱帽しました。
単語をどこから抽出するか迷っていろいろ試してみましたが、結局これに落ち着きました。