Fuzzy Match Toolで日本語をマッチすると大量に Conversion Error が出ます。
Conversion Error "Some Unicode characters were not convertable ("ヤマモト ...")
(" " の中の文字列は半角カナが多いですが、漢字も含まれます)
出力を見ると、まったく異なる文字列に高い MatchScore がついていたりします。
Fuzzy Match Tool は日本語対応していないのでしょうか?
解決済! 解決策の投稿を見る。
FuzzyMatchですが、使用するアルゴリズムが日本語に対応しているものと対応していないものがあります。
別の言い方をすると、日本語対応した2022.3で追加された機能が日本語対応している、ということになります。
https://newssdx.kcme.jp/update_alteryx-designer-2022-3/ より
これは、「編集」をクリックしたときにどのようなアルゴリズムを使っているか、というのを確認できますが、DoubleMetaphoneとかSoundexなどのアルゴリズムが日本語に対応したものではない、というところから来ていると思われます(日本語対応のものは、ローマ字化してから同様のアルゴリズムを用いているように見えます)。
似たものをマッチングする、というタスク用に、Similarity MatchというマクロをGalleryに公開しております。これはPythonのデフォルトのライブラリのdifflibを使って、Gestalt Pattern Matching algorithmを使ってマッチスコアを出すようにしています。よろしければお使いください。
https://community.alteryx.com/t5/Community-Gallery/Similarity-Match/ta-p/935721
※正直マッチスコアを出す手法は色々あるようですが、これだ!ってのはなさそうです・・・。
ありがとうございます!
ちょうど2022.3 を使っていましたが、日本語オプションがあるのに気づきませんでした。
早速使ってみたところ、上記エラーは出ずに走っております。
(12万件あるので本体処理に時間がかかっているようですが)
大変助かりました。ありがとうございました。