Skip to content

一些说明

冬日新雨 edited this page Jan 26, 2022 · 6 revisions

语言暴力数据过滤

  • 无,也不打算做

原因

  • 语言暴力文字的检查和屏蔽伴随了暴力语言文字的变异,例如:“傻逼”,逐渐演变成了 “sb”、“s,b”,“煞笔” ,“伞兵”,“烧杯”等等(色情,反动同理)。这其中的“伞兵”,“烧杯”已经无法被处理,因为已经脱离了词汇本身的语义,属于具有高语义的引申义。这本身很难用词典来应对。
  • 这类似于爬虫和反爬相互促进作用,这个过程必然是一个迭代和变化较快的过程。因此,拿一个固定的词典一定时效性较差,需要频繁地迭代和更新。作为一个工具包,很难做到实时更新。
  • 语言暴力数据很容易被滥用,被某些机构用于不好的方面。

色情数据过滤

  • 同【语言暴力数据过滤】

反动数据过滤

  • 同【语言暴力数据过滤】