Free Trial

ナレッジベース

エキスパートから学ぶ。

Alteryx で Word または PDF を解析できますか?

Community_Admin
Alteryx
Alteryx
Created

Alteryxが愛されている最大の理由の1つは、非常に多くの異なるデータソースを読む能力を備えていることです。 限度といえば、PDFやWordドキュメントの読み込みには、別のソースからのヘルプが少々必要になるという点だけです。 どんな場合にこれをすることになるでしょうか?わかりやすい例の1つは、履歴書がたくさん入ったフォルダーを解析して、ある特定のテキストを検索するといった場合でしょう。 

Alteryxが自動的に読み込みできないのはなぜ?これらのファイルタイプは標準データ形式ではないため、読み込むには最初に通常のテキストファイルに変換する必要があります。 変換するには、無料のオープンソースプログラムDocToTextがご利用いただけます。このプログラムはコマンドラインで実行し、これらのファイルをAlteryxが問題なく読めるテキストファイルに変換することができます。

この投稿に例を掲載しておきました。 このワークフローは、あまり使われないツール、コマンド実行ツールを使用します。 このツールの助けを借りると、特定のソースフォルダ内のファイルのリストを読み込むことができ、情報を解析してDocToTextが使用できるものにします。次にコマンド実行ツールですべてのファイルをテキスト形式に変換し、その後利用できるようにします。 必要なものはすべて添付してあります(モジュールで有効なフォルダ構造を含む)。 

添付のyxzpファイルをダウンロード・抽出し、モジュールを確認してみて、ご意見をお聞かせください。この例はversion 10.0用にアップデートされています。このパッケージを抽出する際、いくつかの依存関係のエラーが発生することがあります。ご心配なく、実行には影響ありません。

ベースアプリと提案してくれたMaureen Wolfsonさんに感謝します。ではまた!

-Chad
Twitterでフォローしてください!@AlteryxChad

添付