Free Trial

ウィークリーチャレンジ

トップになるためのスキルをお持ちですか? ウィークリーチャレンジを購読しましょう。ベストを尽くして問題を解決し、解決策を共有して、他のユーザーがどのように同じ問題に取り組んだのか確認しましょう。私たちも解答例を共有しています。

チャレンジ #42: HTML テーブルの解析

SaoriG
Alteryx Alumni (Retired)

先週のチャレンジの解答はこちらになります。

 

今週のチャレンジではHTMLテーブルの解析に挑戦してみましょう。いつものように、チャレンジに解答する方法はいくつかあります。正規表現を使用して解くことができるので、Advanceとしましたが、正規表現が絶対に必要なわけではありません。

 

 

入力ファイルの Description フィールド内には<td>タグで囲まれた14 個の名前と値を含む HTML テーブルがあります。

各組み合わせは <tr>tag で指定された異なる行で見つけることができます。

 

あなたのゴールは、14 個の名前と値の組み合わせを含むテーブルを生成することです。

 

*WEBの情報が更新されていたため出力ファイルを更新いたしました。

 

Tokimatsu
クエーサー

答えとあっていませんが、これでいいような気がします。

スポイラ
最短一致の「?」はたまにしか使わないので試行錯誤しました。
あと<>でくくられてたらすべてNULLにすべきでしょうか?個人的には日付とかは値として欲しいと思ったのでNULLだけ例外処理してみました。
challenge_jp_42.PNG

ozawa
ACE Emeritus
ACE Emeritus

あまりきれいなワークフローになってないです。

せっかくなので誰も使わないであろうLaboratoryにあるMake Columnsツールを使おうと思って、それにあわせました。

 

この手の処理はどうしても「おまけ」の方が楽だったりしてしまいますね...w

 

スポイラ
ozawa_0-1576564025385.png

 

DaisukeTsuchiya
パルサー

ノンプログラマーの自分は、今回かなり苦戦してTokimatsuさんに教えてもらいながやったのでWorkflowは完全パクリになっています。正規表現の勉強にはなりました。HTMLの中身と回答が違いますね。

 

スポイラ
正規表現中に?がないと分割されず、はまりました。
また<>内の文字を消すのと、<Null> だけ消すの2通りやっていみました。
キャプチャ.PNG

 

AkimasaKajitani
17 - Castor
17 - Castor

2パターン作ってみました・・・(とりあえず結果出すだけのパターンと、若干工夫したバージョンです)。

標準でHTMLのタグの中身を抜き出す機能ほしいですね・・・。

 

スポイラ
無理やりバージョンは、タグをきれいにしてからXMLパースツールを使ってます

クリップボード01.png

しかし、今回は結果がおかしいですね・・・。

 

Qiu
20 - Arcturus
20 - Arcturus

スマートなやり方ではないですが

スポイラ
ja-42.PNG
ks4050kt
アステロイド

正規表現の問題としては結構良問だと思います。

が、HTML の構造を理解してから出ないとキレイに抽出できないので、HTML 構文を確認できるツールがあれば良いなと思いました。

(今回はCSVに吐き出してEditor でHTML 確認しました)

 

スポイラ
ks4050kt_0-1607781069630.png


HTML で表示してしまったら、まぁお題としての意味は無いんですが。。

ks4050kt_1-1607781300856.png
ks4050kt_0-1607781415644.png

 

 

gawa
15 - Aurora
15 - Aurora
スポイラ
gawa_0-1624605306486.png

 

HTMLパースツール欲しい!

ntakeda
ボリード

他の方のワークフローや答えを見て作成しました。

勉強になりました。

Yoshiro_Fujimori
オーロラ

今回の問題のおかげで、正規表現の最短一致の"*?"の使い方が理解できたみたいです。

スポイラ
Yoshiro_Fujimori_0-1663318340348.png