Free Trial

ディスカッション

答えを見つけ、質問し、Alteryx の専門知識を共有してください。
解決済み

Fuzzy Match Tool: Conversion Error "Some Unicode characters were not convertable"

Yoshiro_Fujimori
15 - Aurora
15 - Aurora

Fuzzy Match Toolで日本語をマッチすると大量に Conversion Error が出ます。

 

    Conversion Error "Some Unicode characters were not convertable ("ヤマモト ...")

  (" " の中の文字列は半角カナが多いですが、漢字も含まれます)

 

出力を見ると、まったく異なる文字列に高い MatchScore がついていたりします。

Fuzzy Match Tool は日本語対応していないのでしょうか?

2件の返信2
AkimasaKajitani
17 - Castor
17 - Castor

@Yoshiro_Fujimori さん

 

FuzzyMatchですが、使用するアルゴリズムが日本語に対応しているものと対応していないものがあります。

別の言い方をすると、日本語対応した2022.3で追加された機能が日本語対応している、ということになります。

 

スクリーンショット 2024-08-23 233136.png

https://newssdx.kcme.jp/update_alteryx-designer-2022-3/ より

これは、「編集」をクリックしたときにどのようなアルゴリズムを使っているか、というのを確認できますが、DoubleMetaphoneとかSoundexなどのアルゴリズムが日本語に対応したものではない、というところから来ていると思われます(日本語対応のものは、ローマ字化してから同様のアルゴリズムを用いているように見えます)。

 

似たものをマッチングする、というタスク用に、Similarity MatchというマクロをGalleryに公開しております。これはPythonのデフォルトのライブラリのdifflibを使って、Gestalt Pattern Matching algorithmを使ってマッチスコアを出すようにしています。よろしければお使いください。

https://community.alteryx.com/t5/Community-Gallery/Similarity-Match/ta-p/935721

※正直マッチスコアを出す手法は色々あるようですが、これだ!ってのはなさそうです・・・。

Yoshiro_Fujimori
15 - Aurora
15 - Aurora

@AkimasaKajitani さん

ありがとうございます!

ちょうど2022.3 を使っていましたが、日本語オプションがあるのに気づきませんでした。

早速使ってみたところ、上記エラーは出ずに走っております。

(12万件あるので本体処理に時間がかかっているようですが)

 

大変助かりました。ありがとうございました。

トップのソリューション投稿者