Skip to content

Latest commit

 

History

History
20 lines (11 loc) · 5.33 KB

report.md

File metadata and controls

20 lines (11 loc) · 5.33 KB

Projekt „Erstellung eines deutschen Hatespeech Korpus“

Lehrstuhl für Computerphilologie, Universität Würzburg

Dem Thema „Hatespeech“ (oder „Hassrede“ im Deutschen) wurde in den letzten Jahren viel Aufmerksamkeit zuteil, insbesondere durch den Aufschwung, den die sozialen Netzwerke erfahren haben. Das erste Aufkommen des Begriffs in Deutschland und eine erstmalige Diskussion um das Thema kann auf die Flüchtlingskrise 2015 zurückdatiert werden (vgl. Rafael und Ritzmann 2018). Auch die Forschung beschäftigt sich seitdem mit dem Thema Hassrede, insbesondere wie dieser Begriff genau definiert werden kann, welche verschiedenen Kategorien von Hassrede sich aus den verschiedenen Definitionen ergeben (bzw. unterschiedliche Motivationen der Täter), oder welche Formen Hassrede annehmen kann (zum Beispiel implizit oder explizit). Eine einheitliche Definition von Hassrede gibt es allerdings bis heute nicht. Weiter gefasste Definitionen nennen alle Arten von Angriffen auf eine Person oder eine Personengruppe, was im Extremfall impliziert dass Hassrede von Person zu Person unterschiedlich ausgelegt werden kann, andere Definitionen umfassen beispielsweise nur justiziable Delikte.

Ebenso werden computergestützte Verfahren aus dem Bereich der natürlichen Sprachverarbeitung zunehmend eingesetzt, um das Auftreten oder den Gebrauch von Hassrede zu erkennen bzw. zu analysieren (vgl. z.B. Fedtke und Wiedemann 2020, oder Vogel et al. 2019). Um so eine Untersuchung vornehmen zu können sind möglichst viele annotierte Daten vonnöten. Insbesondere für den englischsprachigen Raum sind einige Korpora zum Thema Hassrede bereitgestellt; für die Deutsche Sprache existieren allerdings weniger Daten. Hinzu kommt, dass die bereitgestellten Daten meist verschiedenen Quellen entstammen und sich häufig auf bestimmte Themenkreise beschränken, aber gleichzeitig ganz unterschiedliche Richtlinien verwendet werden, um die Daten manuell zu klassifizieren. Dies lässt sich hauptsächlich auf die Problematik der Begriffsklärung für Hassrede zurückführen. Die Multidimensionalität von Hassrede erschwert es einem demnach, einen umfassenden aber gleichzeitig einheitlich annotierten Datensatz für Hassrede zu erstellen.

Der Lehrstuhl für Computerphilologie der Universität Würzburg verfolgt das Ziel, ein möglichst einheitliches und umfassendes Textkorpus zum Thema Hassrede in Deutschland aufzubauen. Dafür wurden zunächst bereits existierende Korpora vorheriger Projekte zusammengestellt und neue Annotationsrichtlinien für die Klassifikation Hassrede und Nicht-Hassrede aufgestellt. Statt nur binär für einzelne Textinstanzen zu unterscheiden haben wir zudem eine dritte Klasse „problematisch“ eingeführt, um Grenzfälle so wie zum Beispiel einfache Beleidigungen zu markieren. Die Klasse „Hassrede“ wird damit nur für klare Fälle eingesetzt, sprich Gewaltandrohung und -verherrlichung sowie Volksverhetzung.

Aus den gesammelten Daten haben wir dann Teilmengen für das neue Korpus zusammengeführt, sodass unser neues Korpus einerseits mehrere Themenfelder sowie auch mehrere Quellen abdecken kann. Da teils die Projekte von sehr weit gefassten Definitionen von Hassrede Gebrauch gemacht haben, wurden in diesen Fällen Textinstanzen, die bereits als „Hass“ zuvor gekennzeichnet wurden, bevorzugt. Zu den Quellen gehören aktuell Kommentare unter diversen Blogs, Facebook Kommentare und Tweets, während die Themenfelder laut der jeweiligen Projekte hauptsächlich Politik allgemein, Xenophobie sowie Sexismus abdecken. Die ausgewählten Texte wurden dann hinsichtlich unser neuen Annotationsrichtlinien manuell in „neutral“, „problematisch“ und „Hassrede“ neu klassifiziert.

Das so entstandene Korpus und die Quellen der Subkorpora können unter https://github.com/cophi-wue/German_HateSpeech_Corpus eingesehen werden. Aktuell besteht das Korpus aus 6 unterschiedlichen Datensätzen und umfasst insgesamt 9.149 Textinstanzen, darunter 8.202 neutrale, 718 problematische und 229 hasserfüllte Texte. Die verwendete, engere Definition von Hassrede für dieses Projekt und die Einführung einer dritten Klasse als Kompromiss zeigen durch die Mengenverteilung über die Klassen klar, dass echter Hass vergleichsweise selten auftritt (insbesondere da wir oft bereits eine Vorauswahl an voraussichtlich hasserfüllten Daten getroffen haben). Das Korpus vermittelt damit auch ein anderes, möglicherweise realistischeres Bild von Hassrede als die anderen Projekte, was je nach Anwendungsfall für Forschende interessant sein kann. Insgesamt hoffen wir, dass wir durch die Bereitstellung dieses Korpus eine zusätzliche Grundlage für die Entwicklung und Evaluation von computergestützter Methoden zur Erkennung von Hassrede im Deutschen schaffen können.

Referenzen

Fedtke, Cornelia und Gregor Wiedemann (2020). "Hass-und Gegenrede in der Kommentierung massenmedialer Berichterstattung." Soziale Medien. Springer Vieweg, Wiesbaden, 91-120.

Rafael, Simone und Alexander Ritzmann (2018). „Hintergrund: „Das ABC des Problemkomplexes Hassrede, Extremismus und NetzDG“.“ In Hassrede und Radikalisierung im Netz. Hrsg. von Johannes Baldauf, Julia Ebner und Jakob Guhl, 11–19.

Vogel, Inna, Roey Regev und Martin Steinebach (2019). "Automatisierte Analyse Radikaler Inhalte im Internet." INFORMATIK 2019: 50 Jahre Gesellschaft für Informatik–Informatik für Gesellschaft.