谷腾堡小说数据：识别故事中隐藏的社会偏见

Xu H, Zhang Z, Wu L *, Wang C.J. * (2019) The Cinderella Complex: Word embeddings reveal gender stereotypes in movies and books. PLoS ONE 14(11): e0225385. doi:10.1371/journal.pone.0225385

报名开始时间：【2021年9月1日】（中午 12:00:00）
报名截止时间：【2021年10月20日】（下午 17:00:00）
组队截止时间：【2021年10月20日】（下午 17:00:00）

~~https://www.heywhale.com/org/art_nju/competition/area/612a4eff39efe300170cdaf2/content/2~~

获取数据

https://pan.baidu.com/s/1A7BFw1E7Eqe_fzYb76sBLQ?pwd=zu5n

一、题目描述

赛题题目

识别故事中隐藏的社会偏见

赛题背景

社会偏见在现实社会当中根深蒂固，文化产品的创作和传播不断强化这这些社会偏见。社会偏见的表现形式多种多样，涉及人类生活的各个方面。如果故事当中嵌入了结构化的社会偏见，基于这些文化产品作为语料训练机器学习模型就会学习到这些偏见，并通过推荐系统等各种方式对社会现实产生影响。从文化产品当中识别出具体的社会偏见，揭示这些文化创作是如何以一种不易察觉但是强有力的方式来加深对性别、种族、社会阶层等方面的刻板印象，刻画其所带来的的潜在危险，有助于人们设计更好地机器学习模型和智能产品。

赛题任务

以平台数据为主要数据源，选手可自行增加其它来源数据（需在报告中注明数据来源，数据规模，来源归属等）。本次任务提供来自谷腾堡网站（www.gutenberg.org) 的小说文本数据，参赛者需要合理运用文本处理技术与自然语言处理技术，对于提供的信息进行分析。通过分析小说的文本，总结叙事中的社会偏见的变化趋势，结合叙事相关的信息，讨论包括但不限于如下问题（一个或多个）：

叙事中的性别偏见
叙事中的文化偏见
叙事中的社会阶层偏见
叙事中的国家偏见
叙事中的种族偏见

探究此类问题鼓励参赛队伍深入了解小说的特点与社会偏见，获取其他公开数据进行综合分析，利用数据做观点支持，对于识别文本中的社会偏见提出建设性方案。本次任务原则上鼓励参赛队伍大胆创新，采纳新的方法、视角、理论，敢于对相关的数据与信息在相关性和因果性上进行大胆的假设和严谨的探究与论证。）

二、数据说明

竞赛数据来自谷腾堡网站（www.gutenberg.org) 当中小说类型文本。数据提取由南京大学新闻传播学院计算传播学实验中心完成。数据包括两部分：1.小说的元数据；2. 小说文本数据。

https://www.heywhale.com/mw-org/art_nju/project/612db3f9c9c30f001877f3a4

Data Cleaning

https://github.com/kiasar/gutenberg_cleaner

pip install gutenberg-cleaner

# Just removes lines that are part of the Project Gutenberg header or footer. 
# Doesnt go deeply in the text to remove other things like titles or footnotes or etc...
import glob

filenames = glob.glob('*.txt')

with open('filenames[0], 'r', encoding = 'utf8') as f:
    lines = f.readlines()
    
fiction = gutenberg_cleaner.simple_cleaner(' '.join(lines))

Word Pairs for Affluence, Race, and Gender

https://github.com/KnowledgeLab/GeometryofCulture/tree/master/code/word_pairs

More information

A standardized Project Gutenberg corpus for statistical analysis of natural language and quantitative linguistics

Pipeline to generate the Standardized Project Gutenberg Corpus

问题反馈

1.赛题要求的“分析变化趋势”这个要求，是一定要呈现出来吗？是用提供的数据来分析趋势还是可以用给出的数据跟现有研究结果/数据库来分析？

如果有更好。
根据提供的数据分析趋势

2.最终提交文件的具体要求（内容，格式这些）

提供一个PDF格式的文件
内容包括：标题、摘要、简介、发现、结论、文献

Name		Name	Last commit message	Last commit date
Latest commit History 28 Commits
.ipynb_checkpoints		.ipynb_checkpoints
.DS_Store		.DS_Store
15.txt		15.txt
16.txt		16.txt
24.txt		24.txt
27.txt		27.txt
32.txt		32.txt
33.txt		33.txt
35.txt		35.txt
36.txt		36.txt
41.txt		41.txt
42.txt		42.txt
README.md		README.md
SPGC-metadata-2018-07-18.csv		SPGC-metadata-2018-07-18.csv
download_fictions.ipynb		download_fictions.ipynb
gutenberg_fiction_metadata.csv		gutenberg_fiction_metadata.csv
中国数字人文开放创新研究大赛-和鲸赛事结项报告.pdf		中国数字人文开放创新研究大赛-和鲸赛事结项报告.pdf
测试谷腾堡小说数据分析0831.ipynb		测试谷腾堡小说数据分析0831.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

谷腾堡小说数据：识别故事中隐藏的社会偏见

获取数据

一、题目描述

赛题题目

赛题背景

赛题任务

二、数据说明

Data Cleaning

Word Pairs for Affluence, Race, and Gender

More information

问题反馈

About

Releases

Packages

Languages

socrateslab/gutenberg-story

Folders and files

Latest commit

History

Repository files navigation

谷腾堡小说数据：识别故事中隐藏的社会偏见

获取数据

一、题目描述

赛题题目

赛题背景

赛题任务

二、数据说明

Data Cleaning

Word Pairs for Affluence, Race, and Gender

More information

问题反馈

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages