新詞發現是中文自然語言處理的基礎任務之一。該任務的目標是從語料中抽取較常搭配出現的詞語或短語,組成詞典,以便下游的分詞、關鍵詞抽取、分類等任務使用。既有的新詞發現方法主要用於抽取2-3個字的中文詞語,並且需大量文本才能獲得較好效果。本研究希望突破這兩項限制,利用預訓練語言模型,在100篇文本中進行微調,結合傳統統計方法進行短語發現、篩選及關鍵詞抽取。結果,我們的模型在短語篩選中達到了93.5的F1分數。由新短語組成的詞典也可以提升關鍵詞抽取效果。我們的原始碼初次公布在:https://github.com/fireindark707/WIMU2022-new-keyphrase-discovery-extraction
-
Notifications
You must be signed in to change notification settings - Fork 0
a research project about new keyphrase discovery
License
jefferyhe168/New_Keyphrase_Discovery_Extraction
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
About
a research project about new keyphrase discovery
Resources
License
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published