New_Keyphrase_Discovery_Extraction

新詞發現是中文自然語言處理的基礎任務之一。該任務的目標是從語料中抽取較常搭配出現的詞語或短語，組成詞典，以便下游的分詞、關鍵詞抽取、分類等任務使用。既有的新詞發現方法主要用於抽取2-3個字的中文詞語，並且需大量文本才能獲得較好效果。本研究希望突破這兩項限制，利用預訓練語言模型，在100篇文本中進行微調，結合傳統統計方法進行短語發現、篩選及關鍵詞抽取。結果，我們的模型在短語篩選中達到了93.5的F1分數。由新短語組成的詞典也可以提升關鍵詞抽取效果。我們的原始碼初次公布在：https://github.com/fireindark707/WIMU2022-new-keyphrase-discovery-extraction

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
SeqTaggingMethod		SeqTaggingMethod
classify		classify
method-comparison		method-comparison
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
WIMU2022-new-keyphrase-discovery-extraction.pdf		WIMU2022-new-keyphrase-discovery-extraction.pdf

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

New_Keyphrase_Discovery_Extraction

About

Releases

Packages

Languages

License

jefferyhe168/New_Keyphrase_Discovery_Extraction

Folders and files

Latest commit

History

Repository files navigation

New_Keyphrase_Discovery_Extraction

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages