中文长文本摘要任务数据集收集

欢迎访问本数据集仓库！本项目旨在收集用于中文长文本摘要任务的数据集，以支持后续的研究和模型训练。当前数据集主要涵盖以下几个领域：

法律：包含与法律相关的长文档，平均字数约为500字。
医学：涉及医学领域的文本，平均字数约为500字。
真人对话：收录真实对话的文本，平均字数约为500字。
期刊论文：包含长篇期刊论文，字数在1万字以上。

数据集特性

领域多样性：数据集覆盖法律、医学、对话和学术论文等多个领域，以增强模型的适应性和泛化能力。
内容丰富：各领域数据源丰富，确保所提供文本的多样性和代表性。
后续扩展：未来将针对特定格式文本的摘要数据集进行补充，以满足不同研究需求。

模型微调

在收集到的数据集基础上，我们计划对现有的预训练模型进行微调，以适应特定领域的长文本摘要任务。这将有助于提高模型在实际应用中的表现。

贡献与合作

欢迎有兴趣的研究者和开发者参与到本项目中来，共同丰富和完善数据集。如有数据贡献或合作意向，请联系我。

感谢您的关注与支持！希望本数据集能够为中文长文本摘要任务的研究提供有价值的支持。

Question

不要写数据集丰富什么的，这个库还在建设过程中

Answer

中文长文本摘要任务数据集收集

欢迎访问本数据集仓库！本项目旨在收集用于中文长文本摘要任务的数据集，目前仍在建设过程中。

数据集内容

当前包含以下几个领域的文本数据：

法律：平均字数约500字。
医学：平均字数约500字。
真人对话：平均字数约500字。
期刊论文：字数在1万字以上。

后续计划

后续我们将对特定格式的文本摘要数据集进行补充，并计划对现有的摘要集合进行微调，以适应特定领域下的长文本摘要任务。

感谢您的关注与支持！请注意，这个仓库仍在建设之中，欢迎有兴趣的研究者参与讨论。

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
医学/医学文献		医学/医学文献
教育/教育资讯		教育/教育资讯
法律/判决文书		法律/判决文书
真人对话/客服		真人对话/客服
长文本/期刊论文		长文本/期刊论文
.gitattributes		.gitattributes
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

中文长文本摘要任务数据集收集

数据集特性

模型微调

贡献与合作

Question

Answer

中文长文本摘要任务数据集收集

数据集内容

后续计划

About

Releases

Packages

jiangchengchengark/Chinese-summary-Factory

Folders and files

Latest commit

History

Repository files navigation

中文长文本摘要任务数据集收集

数据集特性

模型微调

贡献与合作

Question

Answer

中文长文本摘要任务数据集收集

数据集内容

后续计划

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Packages