Skip to content

jefferyhe168/New_Keyphrase_Discovery_Extraction

Repository files navigation

New_Keyphrase_Discovery_Extraction

新詞發現是中文自然語言處理的基礎任務之一。該任務的目標是從語料中抽取較常搭配出現的詞語或短語,組成詞典,以便下游的分詞、關鍵詞抽取、分類等任務使用。既有的新詞發現方法主要用於抽取2-3個字的中文詞語,並且需大量文本才能獲得較好效果。本研究希望突破這兩項限制,利用預訓練語言模型,在100篇文本中進行微調,結合傳統統計方法進行短語發現、篩選及關鍵詞抽取。結果,我們的模型在短語篩選中達到了93.5的F1分數。由新短語組成的詞典也可以提升關鍵詞抽取效果。我們的原始碼初次公布在:https://github.com/fireindark707/WIMU2022-new-keyphrase-discovery-extraction

About

a research project about new keyphrase discovery

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published