Skip to content

Huarong/WSD

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

21 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

文件说明:
	1.corpus:保存原始语料
	2.train:为提取过的训练语料特征
	
		标签说明:
			
			W-i:左边第i个单词(W为单词,-i为左边位置)
			Wi :右边边第i个单词(W为单词,i为右边边位置)
			T-i:左边第i个单词的POS(T为单词,i为左边位置)
			Ti :右边第i个单词的POS
			NULL_HEAD: 左边指定位置属性不存在的空缺标签
			NULL_TAIL:右边指定位置属性不存在的空缺标签
			最后一个为所属的意思,集训练结果
			PW:被嵌入的短语(如果有的话)
			PT:短语的POS
			所有属性/最后意思之间使用“ | ”(空格 竖线 空格)分开

	3.test:为提取的测试语料特征
		所有标签与 train 中相同,
		唯一区别:最后一个词为测试句子标签(主要是因为答案形式需要句子标签)
		namefile: 按顺序记录类原始训练语料中单词出现的顺序(也是为与答案顺序一致),做测试集时按顺序处理,输出

	4.result:存储输出结果	
		test_answer 为标准答案,用于评测

	5.src:源文件中有
		util: 提供类简单的filename读取方法, 评估结果方法

使用说明:
	1.Feature_Extractor.py: 特征提取脚本,按说明设置extract()函数参数可以提取各种特征组合;
	2.NB.py:朴素贝叶斯模型,可以直接运行,也可以设置平滑参数smooth_rate调试运行;
	3.ANN_main.py:人工神经网络模型,可以设置隐藏层结点数量HiddenNum,迭代次数itNum,学习率learningRate,调试运行;
	4.max_entropy.py:最大熵模型,可以设置algorithm--优化算法(iis,gis)和max_iter--最大迭代次数,调试运行;
	5.svm.py:支持向量机,可设置惩罚系数C=10.0, 核函数参数gamma=0.0001,调试运行
	
	

About

WORD SENSE DISCRIMINATION

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 99.6%
  • M 0.4%