Skip to content

中国語正体字(繁体字)テキストの分析について #1181

Discussion options

You must be logged in to vote

その後、java-nlp-user メーリングリストに2012年から加入していたことを思い出して、そこでの古いやりとりを検索してみました。

2014年6月に、プロジェクト側の方が、Stanford Segmenterは繁体字(traditional Chinese)をサポートしていない旨、投稿されていました。

その際、「繁体字のデータを投入しても悪くない結果になるけど、なぜだろう」というやりとりがありました。プロジェクト側の方は、簡体字と繁体字とで、多くの同じ文字が使われているからではないか?と返信されていました。

Stanford SegmenterのRelease Historyを見ると、2014年6月以降に、繁体字のサポートが加わった形跡は見られません。

したがって、残念ながら、少なくともStanford Segmenterによる語を切り出す処理に関しては、繁体字はサポートされていないようです。繁体字のデータを投入してもそれほど悪くない結果にはなるようですが、おそらく、簡体字に変換していただいた方が、良い結果になるのではないかと思われます。

Replies: 9 comments

Comment options

You must be logged in to vote
0 replies
Comment options

You must be logged in to vote
0 replies
Comment options

You must be logged in to vote
0 replies
Comment options

You must be logged in to vote
0 replies
Comment options

You must be logged in to vote
0 replies
Comment options

You must be logged in to vote
0 replies
Comment options

You must be logged in to vote
0 replies
Comment options

You must be logged in to vote
0 replies
Answer selected by ko-ichi-h
Comment options

You must be logged in to vote
0 replies
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
question Further information is requested Non-English Communication in Japanese language.
2 participants