forked from horton2009/WSD
-
Notifications
You must be signed in to change notification settings - Fork 0
Huarong/WSD
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
文件说明: 1.corpus:保存原始语料 2.train:为提取过的训练语料特征 标签说明: W-i:左边第i个单词(W为单词,-i为左边位置) Wi :右边边第i个单词(W为单词,i为右边边位置) T-i:左边第i个单词的POS(T为单词,i为左边位置) Ti :右边第i个单词的POS NULL_HEAD: 左边指定位置属性不存在的空缺标签 NULL_TAIL:右边指定位置属性不存在的空缺标签 最后一个为所属的意思,集训练结果 PW:被嵌入的短语(如果有的话) PT:短语的POS 所有属性/最后意思之间使用“ | ”(空格 竖线 空格)分开 3.test:为提取的测试语料特征 所有标签与 train 中相同, 唯一区别:最后一个词为测试句子标签(主要是因为答案形式需要句子标签) namefile: 按顺序记录类原始训练语料中单词出现的顺序(也是为与答案顺序一致),做测试集时按顺序处理,输出 4.result:存储输出结果 test_answer 为标准答案,用于评测 5.src:源文件中有 util: 提供类简单的filename读取方法, 评估结果方法 使用说明: 1.Feature_Extractor.py: 特征提取脚本,按说明设置extract()函数参数可以提取各种特征组合; 2.NB.py:朴素贝叶斯模型,可以直接运行,也可以设置平滑参数smooth_rate调试运行; 3.ANN_main.py:人工神经网络模型,可以设置隐藏层结点数量HiddenNum,迭代次数itNum,学习率learningRate,调试运行; 4.max_entropy.py:最大熵模型,可以设置algorithm--优化算法(iis,gis)和max_iter--最大迭代次数,调试运行; 5.svm.py:支持向量机,可设置惩罚系数C=10.0, 核函数参数gamma=0.0001,调试运行
About
WORD SENSE DISCRIMINATION
Resources
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published
Languages
- Python 99.6%
- M 0.4%