チャレンジ #281: オグデンのベーシック・イングリッシュ~単語のカウントを作りましょう
- RSS フィードを購読する
- トピックを新着としてマーク
- トピックを既読としてマーク
- このトピックを現在のユーザーにフロートします
- ブックマーク
- 購読
- ミュート
- 印刷用ページ
- 新着としてマーク
- ブックマーク
- 購読
- ミュート
- RSS フィードを購読する
- ハイライト
- 印刷
- モデレーターに通知する
こんにちは、Maveryx!
先週の課題の解決策はここで見つけることができます。
今週のチャレンジは、Motoi Tokimatsuさんからのもので、あなたの正規表現のスキルをテストするものです。 この興味深いタスクを作成いただきありがとうございます、@Tokimatsu さん!
850単語からなるCharles Kay Ogdenのベーシック・イングリッシュについて聞いたことはありますか?(この文脈において、BASICはBritish American Scientific International Commercialの頭文字を取ったものです)。1930年に出版された彼の本「Basic English: A General Introduction with Rules and Grammar」では、彼はベーシック・イングリッシュの核となる語彙を形成するために約850単語のリストを作成しました。ベーシック・イングリッシュは、特に第二言語として英語を学んでいる人のために、国際的なコミュニケーションをより簡単で効率的にする英語の形を作ることを狙いとしています。語彙が削減されているため、完全な英語のような複雑さを感じることなく、日常のほとんどのシチュエーションやニーズをカバーするようにデザインされています。
このチャレンジのあなたのタスクは次のとおりです:
- 提供されたURLからデータをダウンロードする
- 約850単語の単語をリストアップする
- それぞれの単語の頭文字のインデックスを作る
- それぞれのアルファベットで始まる単語の数をカウントする
このチャレンジでは、正規表現の置換とトークナイズの機能が活躍します。
復習が必要であれば、アカデミーの次のレッスンで復習してください。
健闘を祈ります!
- 新着としてマーク
- ブックマーク
- 購読
- ミュート
- RSS フィードを購読する
- ハイライト
- 印刷
- モデレーターに通知する
@Tokimatsu さん Challenge問題 採用 おめでとうございます!
PC環境の制約で Download Tool が使えないため 便宜上 Web Browser で HTMLソース を表示してTextファイルに保存しました。
Workflow
RegEx Tool 1
<div class="mw-heading mw-heading3">.*?\n<p>(.*?)\n<\/p>
RegEx Tool 2
<a.*?>(.*?)<\/a>
- 新着としてマーク
- ブックマーク
- 購読
- ミュート
- RSS フィードを購読する
- ハイライト
- 印刷
- モデレーターに通知する
- 新着としてマーク
- ブックマーク
- 購読
- ミュート
- RSS フィードを購読する
- ハイライト
- 印刷
- モデレーターに通知する
不親切な問題で失礼しました。
Index で合計する前に、単語リストを付けるべきでした。それでも不親切ですが。これかなり前に提出したお題で、
なんで合計が違ってるのか思い出せません。
ワークフローもやっつけになってしましました。
- 新着としてマーク
- ブックマーク
- 購読
- ミュート
- RSS フィードを購読する
- ハイライト
- 印刷
- モデレーターに通知する
@Tokimatsu
採用おめでとうございます!
- 新着としてマーク
- ブックマーク
- 購読
- ミュート
- RSS フィードを購読する
- ハイライト
- 印刷
- モデレーターに通知する
できました!そもそも「Ogdenのベーシック・イングリッシュ」というのがあるというのを初めて知りました。 @Tokimatsu さん、勉強になります&採用おめでとうございます。
ちょこちょこ知らない単語があるので勉強しないとダメですね・・・。
※ダウンロードツールでDCM使うときに、URLをDCM側にいれる場合は要注意です(DCMに入れたURLとURLで指定しているURLを合体して読み込むようになっているので)。
- 新着としてマーク
- ブックマーク
- 購読
- ミュート
- RSS フィードを購読する
- ハイライト
- 印刷
- モデレーターに通知する
HTMLパースで苦労すると、Rest APIのありがたさが実感できますねぇ
title="wikt:(\w+)">\1</a>
WFはシンプルです
- 新着としてマーク
- ブックマーク
- 購読
- ミュート
- RSS フィードを購読する
- ハイライト
- 印刷
- モデレーターに通知する
正規表現はなんか釈然としません
答えがあいませんでした