GitHub - Huarong/WSD: WORD SENSE DISCRIMINATION

Huarong / WSD Public

forked from horton2009/WSD

Notifications You must be signed in to change notification settings
Fork 0
Star 1

WORD SENSE DISCRIMINATION

Notifications

Name		Name	Last commit message	Last commit date
Latest commit History 21 Commits
corpus		corpus
doc		doc
result		result
src		src
test		test
train		train
.gitignore		.gitignore
README		README

Repository files navigation

文件说明：
	1.corpus：保存原始语料
	2.train：为提取过的训练语料特征
	
		标签说明：
			
			W-i：左边第i个单词(W为单词，-i为左边位置)
			Wi ：右边边第i个单词(W为单词，i为右边边位置)
			T-i：左边第i个单词的POS（T为单词，i为左边位置）
			Ti ：右边第i个单词的POS
			NULL_HEAD: 左边指定位置属性不存在的空缺标签
			NULL_TAIL：右边指定位置属性不存在的空缺标签
			最后一个为所属的意思，集训练结果
			PW：被嵌入的短语（如果有的话）
			PT：短语的POS
			所有属性/最后意思之间使用“ | ”（空格 竖线 空格）分开

	3.test：为提取的测试语料特征
		所有标签与 train 中相同，
		唯一区别：最后一个词为测试句子标签（主要是因为答案形式需要句子标签）
		namefile： 按顺序记录类原始训练语料中单词出现的顺序（也是为与答案顺序一致），做测试集时按顺序处理，输出

	4.result：存储输出结果	
		test_answer 为标准答案，用于评测

	5.src：源文件中有
		util： 提供类简单的filename读取方法， 评估结果方法

使用说明：
	1.Feature_Extractor.py: 特征提取脚本，按说明设置extract（）函数参数可以提取各种特征组合;
	2.NB.py：朴素贝叶斯模型,可以直接运行，也可以设置平滑参数smooth_rate调试运行;
	3.ANN_main.py：人工神经网络模型，可以设置隐藏层结点数量HiddenNum,迭代次数itNum,学习率learningRate,调试运行；
	4.max_entropy.py：最大熵模型，可以设置algorithm--优化算法（iis，gis）和max_iter--最大迭代次数，调试运行;
	5.svm.py：支持向量机，可设置惩罚系数C=10.0, 核函数参数gamma=0.0001，调试运行