diff --git a/README.md b/README.md index d300397..d16af6c 100644 --- a/README.md +++ b/README.md @@ -2,7 +2,7 @@ # 伪-开放域三元组抽取数据集 由于某个需求,笔者需要构建一个开放域知识图谱,但网上没找到相关数据集。于是笔者决定把现有的三元组抽取相关数据集都收集起来,正所谓当你关系够多的时候那你就相当于开放域。 并且笔者根据自己的需求对数据集提出两点要求:1.数据集中所有的文本都能抽出三元组,2.三元组头尾实体都能在数据集文本中找到。 -通过对网上的数据集整理清洗并且加上一部分笔者标注的数据后,我们清洗出了该数据集。其中训练集10573条,验证集300条,测试集462条。 +通过对网上的数据集整理清洗并且加上一部分笔者标注的数据后,我们清洗出了该数据集。其中训练集10099条,验证集300条,测试集1062条。 ```python #打开文件的代码