ディスカッション

Yoshiro_Fujimori · ‎08-23-2024

Fuzzy Match Toolで日本語をマッチすると大量に Conversion Error が出ます。

Conversion Error "Some Unicode characters were not convertable ("ﾔﾏﾓﾄ ...")

　　（" " の中の文字列は半角カナが多いですが、漢字も含まれます）

出力を見ると、まったく異なる文字列に高い MatchScore がついていたりします。

Fuzzy Match Tool は日本語対応していないのでしょうか？

AkimasaKajitani · ‎08-23-2024

@Yoshiro_Fujimori さん

FuzzyMatchですが、使用するアルゴリズムが日本語に対応しているものと対応していないものがあります。

別の言い方をすると、日本語対応した2022.3で追加された機能が日本語対応している、ということになります。

https://newssdx.kcme.jp/update_alteryx-designer-2022-3/　より

これは、「編集」をクリックしたときにどのようなアルゴリズムを使っているか、というのを確認できますが、DoubleMetaphoneとかSoundexなどのアルゴリズムが日本語に対応したものではない、というところから来ていると思われます（日本語対応のものは、ローマ字化してから同様のアルゴリズムを用いているように見えます）。

似たものをマッチングする、というタスク用に、Similarity MatchというマクロをGalleryに公開しております。これはPythonのデフォルトのライブラリのdifflibを使って、Gestalt Pattern Matching algorithmを使ってマッチスコアを出すようにしています。よろしければお使いください。

https://community.alteryx.com/t5/Community-Gallery/Similarity-Match/ta-p/935721

※正直マッチスコアを出す手法は色々あるようですが、これだ！ってのはなさそうです・・・。

Yoshiro_Fujimori · ‎08-25-2024

@AkimasaKajitani さん

ありがとうございます！

ちょうど2022.3 を使っていましたが、日本語オプションがあるのに気づきませんでした。

早速使ってみたところ、上記エラーは出ずに走っております。

（12万件あるので本体処理に時間がかかっているようですが）

大変助かりました。ありがとうございました。

ディスカッション

Fuzzy Match Tool: Conversion Error "Some Unicode characters were not convertable"

Shape Fileで日本語のフィールド名を使いたい件をIdeaに投稿しました

日本語版コミュニティへようこそ!

Alteryx Skills labのお知らせ

【バグ関連】2020.3にてExcelファイルのパスに２バイト文字を含むと保存できないようです

データサイエンス100本ノック構造化データ加工編をAlteryxでやってみる（１問目～４問目：デー...

ディスカッション

Fuzzy Match Tool: Conversion Error "Some Unicode characters were not convertable"

Shape Fileで日本語のフィールド名を使いたい件をIdeaに投稿しました

日本語版コミュニティへようこそ!

Alteryx Skills labのお知らせ

【バグ関連】2020.3にてExcelファイルのパスに２バイト文字を含むと保存できないようです

データサイエンス100本ノック 構造化データ加工編をAlteryxでやってみる（１問目～４問目：デー...

データサイエンス100本ノック構造化データ加工編をAlteryxでやってみる（１問目～４問目：デー...