-
Notifications
You must be signed in to change notification settings - Fork 348
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
分词错误可以通过修改词库来解决吗 #62
Comments
$ scws -c utf8 -d dict_jieba1.xdb -N -i "中国共产党的初心就是为人民谋幸福" 不過我也遇到分詞不對的情況:
我用jieba詞庫分析的結果:
或是
不論"室外用餐"還是"戶外用餐"使用jieba詞庫都分錯了。 |
可以啊,看文档添加自定义词库在 2023年6月8日,00:13,Fung Cheok Yin ***@***.***> 写道:
$ scws -c utf8 -d dict_jieba1.xdb -N -i "中国共产党的初心就是为人民谋幸福"
中国共产党 的 初心 就是 为 人民 谋 幸福
不過我也遇到分詞不對的情況:
官網 ( http://www.xunsearch.com/scws/demo/v48.php ) 上的分詞(段落取自雅虎香港):
屯 門 黃 金 海岸 酒店 可以 講 是 香港 最美 的 臨 海 酒店 之一 , 酒店 內 的 聆 渢 咖啡 廳 更是 chill 住 食 的 理想 地 點 , 室 內 用餐 區 氣 氛 夠 悠 閒 , 而且 亦 可以 選 擇 戶 外 用餐 , 涼 住 海 風 食 buffet 就 更 relax 更 enjoy !
我用jieba詞庫分析的結果:
$ scws -c utf8 -d dict_jieba1.xdb -N -i "屯門黃金海岸酒店...更relax更enjoy!"
屯門 黃金海岸 酒店 可以 講 是 香港 最美 的 臨海 酒店 之一 , 酒店 內 的 聆 渢 咖啡廳 更是 chill 住 食 的 理想 地點 , 室內 用餐 區 氣氛 夠 悠閒 , 而且 亦 可以 選擇 室 外用 餐 , 涼 住 海風 食 buffet 就 更 relax 更 enjoy !
或是
屯門 黃金海岸 酒店 可以 講 是 香港 最美 的 臨海 酒店 之一 , 酒店 內 的 聆 渢 咖啡廳 更是 chill 住 食 的 理想 地點 , 室內 用餐 區 氣氛 夠 悠閒 , 而且 亦 可以 選擇 戶 外用 餐 , 涼 住 海風 食 buffet 就 更 relax 更 enjoy !
不論"室外用餐"還是"戶外用餐"使用jieba詞庫都分錯了。
—Reply to this email directly, view it on GitHub, or unsubscribe.You are receiving this because you are subscribed to this thread.Message ID: ***@***.***>
|
中国共产党的初心就是为人民谋幸福
这句话里面,为\人民 被错误的分为了 为人\民
我看了一下自定义词库,里面的记录如下
为人 14.60 4.96 v
人民 14.76 4.41 n
请问是否可以通过修改TF或IDF来解决这个问题?如果可行的话,需要如何调整?
谢谢
The text was updated successfully, but these errors were encountered: