diff --git a/_config.yml b/_config.yml
index 355db0ea9fc5b..3c1d36e8c1597 100644
--- a/_config.yml
+++ b/_config.yml
@@ -82,12 +82,12 @@ analytics:
author:
name : "Igor Sterner"
avatar : "igorsterner.jpg"
- bio : "MPhil student in Advanced Computer Science @ University of Cambridge"
- location : "Pembroke College, Cambridge, UK"
+ bio : "PhD student in NLP @ University of Edinburgh"
+ # location : "Pembroke College, Cambridge, UK"
employer :
pubmed : #"https://www.ncbi.nlm.nih.gov/pubmed/?term=john+snow"
googlescholar : #"http://yourfullgooglescholarurl.com"
- email : "is473@cam.ac.uk"
+ email : "igor.sterner@ed.ac.uk"
researchgate : # example: "https://www.researchgate.net/profile/yourprofile"
uri :
bitbucket :
diff --git a/_pages/about.md b/_pages/about.md
index 30469af955558..9b9f51ecb9241 100644
--- a/_pages/about.md
+++ b/_pages/about.md
@@ -8,13 +8,13 @@ redirect_from:
- /about.html
---
-I am a graduate of [Engineering](http://www.eng.cam.ac.uk/) (BA + MEng) from the [University of Cambridge](https://www.cam.ac.uk/), specialising in [Information and Computing Engineering](http://www.eng.cam.ac.uk/research/academic-divisions/information-engineering).
-I received Honours with Distinction for my degree, with a first class result in both my fourth year examinations and master's project.
-My master's project was supervised by [Professor Bill Byrne](https://sites.google.com/view/bill-byrne/) on the topic of encoding visual information as input to large language models.
+I am a PhD student at the University of Edinburgh, funded by an EPSRC scholarship. My supervisors are [Frank Keller](https://homepages.inf.ed.ac.uk/keller/) and [Alex Lascarides](https://homepages.inf.ed.ac.uk/alex/).
-I was an undergraduate Diamond Jubilee Scholar of the [Institute of Engineering and Technology](https://www.theiet.org/), and have now received a full scholarship to join the [Advanced Computer Science](https://www.cst.cam.ac.uk/admissions/acs) program in the [Department of Computer Science and Technology](https://www.cst.cam.ac.uk/).
-I will be continuing work with [Professor Simone Teufel](https://www.cl.cam.ac.uk/~sht25/) in the field of natural language processing.
+I did my undergraduate studies in Engineering (BA + MEng, 2019-2023) at the University of Cambridge, where I was a Diamond Jubilee Scholar of the Institute of Engineering and Technology.
+In my final two years, I specialized in Information and Computing Engineering, earning prizes in both years and graduating with distinction
+My master's project was supervised by [Bill Byrne](https://sites.google.com/view/bill-byrne/) on the topic of encoding visual information as input to large language models.
+After that, I received a full scholarship to join the Advanced Computer Science (MPhil, 2024) program in the Computer Lab at Cambridge.
+My thesis was on computational models of code-switching, supervised by [Simone Teufel](https://www.cl.cam.ac.uk/~sht25/).
+I also did a project supervised by [Petar Veličković](https://petar-v.com/) on non-parametric graph rewiring methods for GNNs.
-I am half-English, half-Swedish and have learnt Chinese (A-Level) and German (Goethe B2).
-
-My [CV](https://igorsterner.github.io/files/igorsternercv.pdf) gives more detail.
\ No newline at end of file
+In /hobbies I have put something (I think is) cool which I've done each year for the past few years.
\ No newline at end of file
diff --git a/_portfolio/1-science-challenge.md b/_portfolio/1-science-challenge.md
index 9e399463a0158..df3625b7cf0d1 100644
--- a/_portfolio/1-science-challenge.md
+++ b/_portfolio/1-science-challenge.md
@@ -1,5 +1,5 @@
---
-title: "How will A.I.s turn art into science?"
+title: "2019 - How will A.I.s turn art into science?"
excerpt: "I was the UK Overall winner (school) of the RCSU/Imperial College Science Challenge 2019
"
@@ -7,6 +7,8 @@ excerpt: "I was the UK Overall winner (school) of the RCSU/Imperial College Scie
collection: portfolio
---
+Date written: March 2019
+
## Background
The year is 2023 and the place is the Imperial College Department of Artificial Intelligence. We follow a PhD student looking to get to the bottom of a question posed by his supervisor: “How will A.I.s turn art into science?” Previous generations of students might have poured over books for night after caffeine-filled night in an attempt to come up with some sort of answer.
diff --git a/_portfolio/2-bamboobike.md b/_portfolio/2-bamboobike.md
index 7957e1ff9ca1d..219fea53a62cf 100644
--- a/_portfolio/2-bamboobike.md
+++ b/_portfolio/2-bamboobike.md
@@ -1,5 +1,5 @@
---
-title: "My Bamboo Bike"
+title: "2020 - My Bamboo Bike"
excerpt: "Over the 2020 Coronavirus lockdown, I built a bamboo bicycle!
"
diff --git a/_portfolio/3-heidelberg.md b/_portfolio/3-heidelberg.md
index 9e41d095be7c1..5b539baabd032 100644
--- a/_portfolio/3-heidelberg.md
+++ b/_portfolio/3-heidelberg.md
@@ -1,5 +1,5 @@
---
-title: "International Summer School of Language and Culture"
+title: "2022 - International Summer School of Language and Culture"
excerpt: "During the 2022 summer, I joined Heidelberg University in Germany for a month of language & cultural learning.
"
diff --git a/_portfolio/code-switching.md b/_portfolio/code-switching.md
deleted file mode 100644
index f0c2cb681fb91..0000000000000
--- a/_portfolio/code-switching.md
+++ /dev/null
@@ -1,807 +0,0 @@
-[//]: # (---)
-
-[//]: # (title: "Code-Switching")
-
-[//]: # (excerpt: "As a project in the engineering department, I received some linguistic and technical supervision to explore German tweets that use English words and phrases. Turns out some of the most common uses are: btw, finds, wtf, did and idk!)
-
-[//]: # ()
-[//]: # (
")
-
-[//]: # (collection: portfolio)
-
-[//]: # (---)
-
-[//]: # ()
-[//]: # (# Die Entwicklung eines modernen Deutsch-Englisch Code-Switching-Datensatzes für Postings in sozialen Medien)
-
-[//]: # ()
-[//]: # (Betreuer: Alexander Bleistein & Constanze Leeb)
-
-[//]: # ()
-[//]: # (## Zusammenfassung)
-
-[//]: # ()
-[//]: # (Dieser Bericht beschäftigt sich mit dem Problem, dass es bis jetzt keinen umfassenden)
-
-[//]: # (Deutsch-Englisch Code-Switching (CSW)-Datensatz gibt. Um Sätze zu identifizieren,)
-
-[//]: # (die CSW verwenden, braucht man eine Methode. Diese Methode ist nützlich bei)
-
-[//]: # (transkribierten Gesprächen oder umgangssprachlichen Texten. Eine neue Methode ist in)
-
-[//]: # (diesem Bericht implementiert. Ein Wörterbuch wird mit umgangssprachlichen Wörtern)
-
-[//]: # (von dem)
-
-[//]: # (”Urban Dictionary“ entnommen und mit englischen und deutschen)
-
-[//]: # (Wörterbuchern kombiniert, um ein CSW-Wörterbuch zu entwickeln. Eine)
-
-[//]: # (Wort-für-Wort-Uberprüfung von 5,8 Mio. deutschen Tweets aus den ersten vier)
-
-[//]: # (Monaten dieses Jahres hat 162 Tsd. Tweets als CSW identifiziert. Außerdem wurde der)
-
-[//]: # (entwickelte Datensatz auf eine Genauigkeit von 77% geschätzt, was eine Basis für)
-
-[//]: # (weitere Forschungsarbeiten sein kann.)
-
-[//]: # ()
-[//]: # (## 1 Einleitung)
-
-[//]: # ()
-[//]: # (Natural Language Processing (kurz NLP) wird für verschiedene Disziplinen als inter-)
-
-[//]: # (essant erachtet. In diesem Bereich unter Personen, die mehr als eine Sprache beherr-)
-
-[//]: # (schen, kann man in informellem Kontext ein häufiges Phänomen beobachten: das so-)
-
-[//]: # (genannte Code-Switching (CSW) (Choudhury et al., 2019). Eigentlich im Bereich der)
-
-[//]: # (herkömmlichen Sprachforschung anzusiedeln, rucken nun computergestützte Ansätze in)
-
-[//]: # (den Fokus der NLP-Forschung. Deren Ziel ist es, die Leistung automatischer Spracherken-)
-
-[//]: # (nung undUbersetzungs-Programme mit CSW-Datensatzen zu verbessern (Yang et al.,)
-
-[//]: # (2020; Adda-Decker et al., 2008). Ein Satz kann in der dominanten Sprache, auch)
-
-[//]: # (’Matrix)
-
-[//]: # (Language‘ (ML) genannt, formuliert sein. Diese wird durch das Hauptverb oder die Wort-)
-
-[//]: # (reihenfolge bestimmt. In solch einem Satz können darüber hinaus Wörter aus anderen)
-
-[//]: # (Sprachen enthalten sein, der sogenannten)
-
-[//]: # (’Embedded Language‘ (EL).)
-
-[//]: # ()
-[//]: # (CSW findet statt, wenn sich die ML eines Satzesändert, es aber keine EL gibt (Myers-)
-
-[//]: # (Scotton, 1997). Im Gegenteil dazu lässt sich Code-Mixing in jedem Satz feststellen, in)
-
-[//]: # (dem die EL zu finden ist. In diesem Bericht wird CSW für beide Situationen benutzt.)
-
-[//]: # ()
-[//]: # (Den Code fur diese Ansätze findet man unter)
-
-[//]: # ([https://github.com/igorsterner/CSW-Twitter](https://github.com/igorsterner/CSW-Twitter).)
-
-[//]: # ()
-[//]: # (## 2 Stand der Forschung)
-
-[//]: # ()
-[//]: # (Wie in Abb. 1 zu sehen ist, gab es bis 2014 fast keine computerlinguistischen CSW-)
-
-[//]: # (Forschungsarbeiten, obwohl die erste CSW-Publikation in ACL Anthology bereits im)
-
-[//]: # (Jahr 1998 erschien. Da CSW-Konferenzen alle zwei Jahre stattfinden, steigt die Anzahl)
-
-[//]: # (an Publikationen seit 2014 in zweijährigen Zyklen. Es lässt sich beobachten, dass die)
-
-[//]: # (Kurve zwischen 2016 und 2021 alle zwei Jahre um 100 Prozent ansteigt, was einen großes)
-
-[//]: # (Interesse an der Thematik demonstriert.)
-
-[//]: # ()
-[//]: # (Obwohl es viele Bestrebungen gibt, die Linguistik von CSW im Bezug auf Deutsch und)
-
-[//]: # (Englisch zu erforschen (Müller et al., 2015; Eppler, 2010), gibt es leider nur zwei For-)
-
-[//]: # (schungsarbeiten inACL Anthology, welche)
-
-[//]: # (”German“ auch enthalten. Keine der beiden)
-
-[//]: # (Forschungsarbeiten behandeln spezifisch das deutsch-englische CSW.)
-
-[//]: # ()
-[//]: # (Das deutsch-englische Sprachpaar wurde bereits viel geforscht, zum Beispiel die Entwicklung von zweisprachigen Textkorpora, die oft als Trainingsdaten maschinellerUbersetzungs-)
-
-[//]: # (Modelle genuzt werden. Tatsächlich rangiert das Sprachpaar regelmäßig unter den fünf)
-
-[//]: # (am meisten genutzten. Es ist daher erstaunlich, wie wenig Forschungsergebnisse bisher)
-
-[//]: # (bezuglich CSW im deutsch-englischen Kontext existieren.)
-
-[//]: # ()
-[//]: # (Es ist also unabdingbar, mehr im Bereich des deutsch-englischen CSW zu forschen, und)
-
-[//]: # (ein moderner CSW Datensatz kann eine wichtige Grundlage für diese Arbeit bieten.)
-
-[//]: # ()
-[//]: # (![image](/images/csw/ab1.jpg))
-
-[//]: # ()
-[//]: # (*Abbildung 1: Forschungsarbeiten von der Zeitschrift ACL Anthology, die ’Code-)
-
-[//]: # (Switching‘, ’Code-mixing‘ oder morphologische Varianten dieser Wörter im Titel oder in der Zusammenfassung enthalten*)
-
-[//]: # ()
-[//]: # (## 3 Code-Switching in den sozialen Medien)
-
-[//]: # ()
-[//]: # (Traditionell wird CSW als mündliches Phänomen betrachtet. Die Suche nach Textkor-)
-
-[//]: # (pora, die regelmäßig fur CSW verwendet werden, zeigt jedoch, dass informelle Chats aus)
-
-[//]: # (den sozialen Medien eine ideale Quelle sind (Androutsopoulos and Hinnenkamp, 2001).)
-
-[//]: # ()
-[//]: # (Die Nutzung von Postings in sozialen Medien hat zwei Hauptvorteile. Open-Source-)
-
-[//]: # (Postings sind häufig genug, sodass es relativ einfach ist, einen umfangreichen Datensatz)
-
-[//]: # (zu sammeln. Außerdem gibt es bereits viele NLP-Werkzeuge, um Tweets zu verarbeiten,)
-
-[//]: # (von denen mehrere in diesem Bericht verwendet werden.)
-
-[//]: # ()
-[//]: # (### 3.1 Datensätze fur deutsche Postings in sozialen Medien)
-
-[//]: # ()
-[//]: # (Viele Social-Media-Plattformen bieten Postingdaten zu Forschungszwecken an. Beispiels-)
-
-[//]: # (weise ist es möglich, Facebook-Posts (Franko, 2019), aber andere Datenquellen wie Red-)
-
-[//]: # (dit und Twitter können auch als Quelle für umgangssprachliche Sätze genutzt werden.)
-
-[//]: # (Choudhury et al. (2019) zufolge wurde die Prävalenz der CSW in Tweets (Postings auf)
-
-[//]: # (Twitter) auf 2-20% geschätzt. Nach der Freigabe der Twitter-API wurden viele große)
-
-[//]: # (Twitter-Datensätze im Internet veröffentlicht (Twitter API Documentation, o. J.).)
-
-[//]: # ()
-[//]: # (Ein Datensatz mit deutschen Twitter-Tweets, dieüber mehr als zwei Jahre mit der)
-
-[//]: # (Twitter-API gesammelt wurden, ist online verfügbar (Kratzke, 2022). Der erste Schritt)
-
-[//]: # (diese Projekts ist es, diese zu entpacken, zu extrahieren und zu bereinigen.)
-
-[//]: # ()
-[//]: # ()
-[//]: # (### 3.2 Extraktion der Twitter-Tweets)
-
-[//]: # ()
-[//]: # (Der genutzte Datensatz beinhaltet Tweets, die in mehreren hunderten JSON-Dateien)
-
-[//]: # (gespeichert werden. Diese wurden zunächst heruntergeladen. Ein wesentlicher Teil der)
-
-[//]: # (Informationen war für dieses Projekt nicht relevant, zum Beispiel Autoreninformationen)
-
-[//]: # (und Re-Tweet-Muster. Daher wurde im ersten Schritt der Pipeline der Text der Tweets)
-
-[//]: # (extrahiert. Abb. 2 im Anhang zeigt das extraction.py-Skript, das diese Funktion ausführt.)
-
-[//]: # ()
-[//]: # (Dass viele Tweets kein)
-
-[//]: # (”Text“-Feld enthielten, sondern nur andere Metadaten, hat zu)
-
-[//]: # (Schwieirgkeiten gefuhrt. Dies wurde nicht weiter verfolgt, die entsprechenden Postings)
-
-[//]: # (jedoch algorithmisch ignoriert.)
-
-[//]: # ()
-[//]: # (### 3.3 Vorverarbeitung der Tweets)
-
-[//]: # ()
-[//]: # (Bei der manuellen, visuellen Inspektion der Tweets wurde deutlich, dass ein Großteil der)
-
-[//]: # (Postings aus URLS, Emojis usw. besteht. Außerdem wird in vielen Tweets das @-Symbol)
-
-[//]: # (verwendet, um andere Twitter-Benutzer zu erwähnen. Da diese Informationen fur das)
-
-[//]: # (Projekt nicht relevant waren, wurden alle Wörter, die @-Symbol enthalten, entfernt.)
-
-[//]: # ()
-[//]: # (Im Vergleich zum Spracherkennungsalgorithmus von Twitter fuhrte die Bereinigung der)
-
-[//]: # (Tweets, vor der Spracherkennung, zu einer besseren Leistung bei der Entfernung eng-)
-
-[//]: # (lischer Tweets. Weil fast alle dieser Wörter im CSW-Wörterbuch enthalten waren, wie)
-
-[//]: # (in Kapitel 4.1 erklärt ist, war die Qualität des ersten generieten Datensatzes schlecht.)
-
-[//]: # (Also wurde eine zeitaufwändige, aber effektive Spracherkennungsmethode aus der lang-)
-
-[//]: # (detect-Bibliothek implementiert, um zuüberprüfen, ob der Tweet tatsächlich deutsch)
-
-[//]: # (ist. Die bessere Leistung dieser Implementierung gegenüber der von Twitter ist wahr-)
-
-[//]: # (scheinlich auf die Bereinigung der Tweets zurückzuführen, bevor die Spracherkennung)
-
-[//]: # (durchgeführt wurde. Insgesamt wurden 23,8% der Tweets hier entfernt, weil sie nicht als)
-
-[//]: # (deutsch identifiziert wurden.)
-
-[//]: # ()
-[//]: # (In Abb. 2 im Anhang sind die beiden Effekte des preprocessing.py-Skripts dargestellt.)
-
-[//]: # (Zuerst wurden @s, Emojis und URLs entfernt, wie in Tweet (2) gezeigt. Zweitens wur-)
-
-[//]: # (de der Tweet (3) nach der Textbereinigung als englischer Text identifiziert und daher)
-
-[//]: # (entfernt.)
-
-[//]: # ()
-[//]: # (## 4 Cie Erkennung von Code-Switching in Tweets)
-
-[//]: # ()
-[//]: # (Um einen neuen Deutsch-Englisch-CSW-Erkennungsalgorithmus zu entwickeln, muss eine)
-
-[//]: # (Quelle der relevanten englischen Wörter gefunden werden. Dann muss ein Wort-fur-Wort-)
-
-[//]: # (CSW-Uberprüfungsalgorithmus implementiert werden.)
-
-[//]: # ()
-[//]: # (Das Flussdiagramm in Abb. 3 im Anhang stellt den CSW-Erkennungsalgorithmus dar,)
-
-[//]: # (der in diesem Projekt umgesetzt wird. Jedes Wort in jedem bereinigten Tweet wird mit einem speziellen CSW-Wörterbuch verglichen und wenn der Tweet mindestens ein CSW-)
-
-[//]: # (Wort enthält, wird er gespeichert.)
-
-[//]: # ()
-[//]: # (### 4.1 Wörterbucher )
-
-[//]: # ()
-[//]: # (Einer der komplexesten Aspekte dieses Projekts war die Entwicklung eines speziellen)
-
-[//]: # (CSW-Wörterbuchs für das Sprachpaar)
-
-[//]: # (’DE-EN‘.)
-
-[//]: # ()
-[//]: # (In diesem Bericht wird der folgende Ansatz zur Erstellung dieses Wörterbuchs vorge-)
-
-[//]: # (stellt: Man nimmt ein kleines Wörterbuch mit häufig verwendeten englischen Wörtern)
-
-[//]: # (und entfernt alle Wörter, die auch in einem großen Wörterbuch mit deutschen Wörtern)
-
-[//]: # (vorkommen. Tab. 1 gibt Aufschlussüber die Anzahl der Wörter von Wörterbuchen, die)
-
-[//]: # (in diesem Projekt verwendet wurden.)
-
-[//]: # ()
-[//]: # (| Wörterbuch | Quelle | Anzahl der Wörter |)
-
-[//]: # (|---------------------|----------------------|-------------------|)
-
-[//]: # (| Englisch | WL 100K Sätze (2020) | 15K |)
-
-[//]: # (| Urban Dictionary | Bierner (2022) | 13K |)
-
-[//]: # (| Deutsch 1 | dict.cc | 583K |)
-
-[//]: # (| Deutsch 2 | WL 300K Sätze (2021) | 65K |)
-
-[//]: # (| Schweizer | WL 300K Sätze (2012) | 37K |)
-
-[//]: # (| Österreichisch | WL 100K Sätze (2012) | 34K |)
-
-[//]: # (| **Gesamt-Englisch** | | **22K** |)
-
-[//]: # (| **Gesamt-Deutsch** | | **749K** |)
-
-[//]: # (| **CSW** | | **12K** |)
-
-[//]: # ()
-[//]: # (*Tabelle 1: Verwendete Wörterbücher mit entsprechender Größe*)
-
-[//]: # ()
-[//]: # (#### 4.1.1 Englische und deutsche Wörterbucher)
-
-[//]: # ()
-[//]: # (Der)
-
-[//]: # (’Wortschatz Leipzig‘ (WL) bietet einsprachige Textkorpora aus Web-Nachrichten an,)
-
-[//]: # (zusammen mit zugehörigen Wörterbüchern für alle darin enthaltenen Wörter (Goldhahn)
-
-[//]: # (et al., 2012). Das Ergebnis ist ein modernes und effizientes Wörterbuch für die gängigsten)
-
-[//]: # (Wörter, die in geschriebenen Texten verwendet werden.)
-
-[//]: # ()
-[//]: # (Im Laufe des Projekts wurde erkannt, dass ein Großteil der Tweets in deutschen Dialekten)
-
-[//]: # (geschrieben werden (siehe Kapitel 5.3). Der)
-
-[//]: # (’)
-
-[//]: # (Wortschatz Leipzig‘ war sehr nutzlich, um)
-
-[//]: # (dieses Problem zu beheben, weil für die schweizerischen undösterreichischen Nachrichten)
-
-[//]: # (spezialisierte Textkorpora mit entsprechenden Wörterbüchern zur Verfugung standen.)
-
-[//]: # (Für jedes Wörterbuch war es möglich, wenig verwendete Wörter zu entfernen. Dies be-)
-
-[//]: # (grenzt die Menge an eingeführten englischen Wörtern. Es war erforderlich, unterschiedlich)
-
-[//]: # (streng)
-
-[//]: # (’)
-
-[//]: # (wenig verwendet‘ für unterschiedliche Dialekte zu quantifizieren. Die ausgewählte)
-
-[//]: # (minimale Verwendungsfrequenz ist für jeden Dialekt auf der Github-Seite enthalten.)
-
-[//]: # ()
-[//]: # (Obwohl es aus WL-Wörterbüchen bis zu 1 Mio. Sätze gibt, reicht diese Anzahl nicht)
-
-[//]: # (aus, um obsukure deutsche Wörter aus dem CSW-Wörterbuch zu entfernen. Ein sehr)
-
-[//]: # ()
-[//]: # ()
-[//]: # (großes deutsches Wörterbuch war erforderlich, um Wörter wie)
-
-[//]: # (”)
-
-[//]: # (Digga“ zu entfernen.)
-
-[//]: # (Glucklicherweise kann man das gesamte dict.cc-Wörterbuch herunterladen, also wurde)
-
-[//]: # (dieses mit einem mittelgroßen Wörterbuch von WL für deutsche Wörter verwendet.)
-
-[//]: # ()
-[//]: # (#### 4.1.2 ’Urban Dictionary‘)
-
-[//]: # ()
-[//]: # (Die Verwendung von abgekurzten englischen Wörtern wie)
-
-[//]: # (”)
-
-[//]: # (idk“ oder anderer englischer)
-
-[//]: # (Umgangssprache ist in deutschen Postings in sozialen Medienüblich. Deshalb war ein)
-
-[//]: # (spezielles Wörterbuch der englischen Umgangssprache erforderlich, um diese Wörter er-)
-
-[//]: # (folgreich als Verwendungen von CSW zu identifizieren.)
-
-[//]: # ()
-[//]: # (Um dieses Problem zu lösen, wurde das)
-
-[//]: # (’Urban Dictionary‘ verwendet. Das moderne)
-
-[//]: # (’Urban Dictionary‘ enthält umgangssprachliche Texte, die in traditionellen englischen)
-
-[//]: # (Wörterbuchern nicht enthalten sind. Alle Wörter wurden aus ihren Phrasen getrennt.)
-
-[//]: # (Großgeschriebene Wörter, Wörter mit weniger als drei Zeichen und Wörter, die nicht)
-
-[//]: # (alphabetische Zeichen enthalten, wurden entfernt. Die Wörter die mehr als zehnmal im ’Urban Dictionary‘ vorkommen, wurden gespeichert.)
-
-[//]: # ()
-[//]: # (#### 4.1.3 Code-Switching-Wörterbuch)
-
-[//]: # ()
-[//]: # (Schlussendlich wurde die Menge aller deutschen Wörter (ohne Wiederholungen) aus der)
-
-[//]: # (Menge der englischen und)
-
-[//]: # (’Urban Dictionary‘-Wörter entfernt, um ein)
-
-[//]: # (’CSW-Wörterbuch‘ zu erstellen.)
-
-[//]: # ()
-[//]: # (Um das Ziel zu erreichen, war es beabsichtigt, ein so großes deutsches Gesamtwörterbuch)
-
-[//]: # (wie möglich zu erstellen, ohne versehentlich viele englische Wörter zu integrieren. Gleich-)
-
-[//]: # (zeitig war ein kleines englisches Wörterbuch wünschenswert, um den Rechenaufwand)
-
-[//]: # (für die Suche nach CSW-Wörtern in Tweets zu verringern. Die verwendete subtraktive)
-
-[//]: # (Methode bedeutete, dass die Größe des CSW-Wörterbuchs nicht größer als die)
-
-[//]: # (’Gesamt-)
-
-[//]: # (Englisch‘-Wörter sein konnte. Es wurden 44% dieser Wörter entfernt, weil es)
-
-[//]: # (’identische‘)
-
-[//]: # (deutsche Wörter oder Wörter in deutschen Dialekten gibt.)
-
-[//]: # ()
-[//]: # (### 4.2 Wort-für-Wort-Überprüfung der Tweets)
-
-[//]: # ()
-[//]: # (Der finale Schritt in Abb. 2 im Anhang zeigt die Ergebnisse des CSW-Erkennungsalgorithmus.)
-
-[//]: # (Tweet (1) hat CSW und (2) ist einfach deutsch. Dieser Algorithmus identifizierte das Wort ’swear‘, das sich aus der ersten CSW-Phrase)
-
-[//]: # (’I swear to god‘ ergibt, und die englische)
-
-[//]: # (Abkurzung)
-
-[//]: # (’idk‘ (englisch: I don’t know) als Verwendungen von CSW.)
-
-[//]: # ()
-[//]: # (Das Flussdiagramm in Abb. 3 in Anhang enthält zwei Datenquellen: die Wörterbücher)
-
-[//]: # (und die JSON-Dateien der Tweets. Die CSW-Wörterbucher werden wie in Kapitel 4.1)
-
-[//]: # (beschrieben erstellt und die Tweets werden wie in Kapitel 3.3 vorgestellt bereinigt.)
-
-[//]: # ()
-[//]: # (| Wort | Frequenz |)
-
-[//]: # (|------------|----------|)
-
-[//]: # (| btw | 1,66% |)
-
-[//]: # (| finds | 1,12% |)
-
-[//]: # (| wtf | 1,02% |)
-
-[//]: # (| did | 0,83% |)
-
-[//]: # (| idk | 0,80% |)
-
-[//]: # (| understand | 0,77% |)
-
-[//]: # (| been | 0,74% |)
-
-[//]: # (| cringe | 0,65% |)
-
-[//]: # (| weird | 0,65% |)
-
-[//]: # (| dont | 0,64% |)
-
-[//]: # ()
-[//]: # (*Tabelle 2: Die 10 CSW-Wörter, die am häufigsten in Tweets verwendeten werden*)
-
-[//]: # ()
-[//]: # (Zunächst wird geprüft, ob das Wort in Großbuchstaben geschrieben ist, was auf Namen)
-
-[//]: # (oder andere Eigennamen hinweist. Wenn das der Fall ist, soll es nicht als CSW-Wort)
-
-[//]: # (identifiziert werden. Dann wird das Wort mit dem CSW-Wörterbuch abgeglichen, und)
-
-[//]: # (wenn ein Tweet ein bestimmtes CSW-Wort enthält, wird er gespeichert.)
-
-[//]: # ()
-[//]: # (## 5 Ergebnisse)
-
-[//]: # ()
-[//]: # (Der vorgestellte Algorithmus wurde auf Tweets aus den ersten vier Monaten des Jah-)
-
-[//]: # (res 2022 angewendet. Von 5,8 Mio. bereinigten Tweets wurden 162 Tsd. als CSW-Tweets)
-
-[//]: # (identifiziert. Dies entspricht einem Prozentsatz von 2,8. Im Kapitel 3.1 wurde bereits dar-)
-
-[//]: # (gestellt, dass die Prävalenz der CSW in Tweets auf 2-20% geschätzt wurde. Obwohl unser)
-
-[//]: # (Ergebnis am unteren Ende liegt, liegt es trotzdem innerhalb der erwarteten Prozentsätze.)
-
-[//]: # ()
-[//]: # (Tab. 2 zeigt die 10 Wörter, die in diesen Tweets am häufigsten als Verwendung von CSW)
-
-[//]: # (identifiziert wurden. Die ersten, dritten und fünften Abkürzungen,)
-
-[//]: # (”btw“,)
-
-[//]: # (”wtf“ und)
-
-[//]: # (”idk“,)
-
-[//]: # (sowie die achthäufigste,)
-
-[//]: # (”cringe“, sind nicht im englischen Originalwörterbuch enthalten.)
-
-[//]: # (Dies unterstreicht die Wichtigkeit der neuartigen UD Benutzung, die in diesem Bericht)
-
-[//]: # (vorgestellt wird.)
-
-[//]: # ()
-[//]: # (### 5.1 Ein Open-Source-Datensatz)
-
-[//]: # ()
-[//]: # (Dieses Projekt hatte zum Ziel, eine Methode zur Erstellung eines großen Datensatzes von)
-
-[//]: # (deutsch-englischen CSW-Sätzen zu entwickeln.)
-
-[//]: # ()
-[//]: # (Die allgemeinen Geschäftsbedingungen von Twitter verhindern dasöffentliche Hochladen)
-
-[//]: # (des gesamten Datensatzes, aber alle erforderlichen Quellen für diese Methode sind in)
-
-[//]: # (der README.md von Githubübersichtlich aufgelistet. Deshalb ist der Datensatz leicht)
-
-[//]: # (reproduzierbar.)
-
-[//]: # ()
-[//]: # ()
-[//]: # (### 5.2 Menschliche Evaluierung)
-
-[//]: # ()
-[//]: # (Eine Doktorandin, die fließend Deutsch und Englisch spricht, erhielt je 100 Tweets aus)
-
-[//]: # (dem bereinigten Originaldatensatz und 100 Tweets, in denen CSW identifizert wurden.)
-
-[//]: # (Sie wurde gebeten, alle Tweets zu identifizieren, in denen CSW verwendet wurde. ‘Hash-)
-
-[//]: # (tags’ mit englischen Wörtern wurden nicht als CSW identifiziert. Weil diese menschliche)
-
-[//]: # (Evaluierung nur 100 Tweets verwendet und das eine kleine Probe von 5,8 Mio. Tweets)
-
-[//]: # (ist, kann man nur erste Ergebnisse erreichen.)
-
-[//]: # ()
-[//]: # (Von 100 zufällig ausgewählten Tweets wurden 13 als CSW-Tweets identifiziert. Dies ent-)
-
-[//]: # (spricht einem Prozentsatz von 13. Das ist genau in der Mitte des erwarteten Bereichs)
-
-[//]: # ((Choudhury et al., 2019). Da die Methode dieses Berichts nur 3% als CSW-Tweets iden-)
-
-[//]: # (tifiziert hat, ist es auch eine konservative Methode, CSW-Sätze zu identifizieren. Auf)
-
-[//]: # (der anderen Seite wurden von 100 Tweets, die durch den Algorithmus als CSW-Tweets)
-
-[//]: # (gekennzeichnet wurden, 77 korrekt als CSW-Tweets identifiziert. Dies entspricht einem)
-
-[//]: # (Korrektheit-Prozentsatz von 77, was relativ gut ist.)
-
-[//]: # ()
-[//]: # (### 5.3 Begrenzungen)
-
-[//]: # ()
-[//]: # (Die Hauptbegrenzung dieses Berichtes ist die Behandlung von Wörtern wie)
-
-[//]: # (’die‘: es)
-
-[//]: # (könnte sich um den deutschen Artikel oder das englische Wort für)
-
-[//]: # (’sterben‘ handeln.)
-
-[//]: # (Solche Wörter werden in der vorhandenen Studie nicht betrachtet: Sie können nicht als)
-
-[//]: # (CSW-Wörter identifiziert werden. In der praktischen Umsetzung fuhrte dies dazu, dass)
-
-[//]: # (44% der Wörter des englischen UD entfernt wurden. Diese Studie unterschätzt daher die)
-
-[//]: # (Verbreitung von CSW auf Twitter.)
-
-[//]: # ()
-[//]: # (Besonders problematisch wares, englische Wörter zu vermeiden, die in den verschiede-)
-
-[//]: # (nen deutschen Dialekten gleich geschrieben werden. Leider bietet keine der untersuchten)
-
-[//]: # (Spracherkennungsbibliotheken Funktionen zur Erkennung spezifischer deutsche Dialek-)
-
-[//]: # (te. Der Twitter-Spracherkennungsalgorithmus kategorisiert alle deutschen Dialekte le-)
-
-[//]: # (diglich mit)
-
-[//]: # (’DE‘. Um dieses Problem zu lösen, wurden spezialisierte schweizerische und)
-
-[//]: # (̈osterreichische Deutschwörterbucher eingeführt, da ein großer Teil der Tweets in diesen)
-
-[//]: # (beiden Sprachen identifiziert wurde. Trotzdem enthält der finale Datensatz viele Tweets)
-
-[//]: # (mit weniger verbreiteten Dialekten, die falsch eine CSW-Bedingung auslösen. Zum Bei-)
-
-[//]: # (spiel wurde Luxemburgisch oft als CSW-Englisch erkannt, oft fur Wörter wie)
-
-[//]: # (’deen‘, das)
-
-[//]: # (im Urban Dictionary viele ungewöhnliche Definitionen hat.)
-
-[//]: # ()
-[//]: # (Markennamen, Bücher und Filmnamen wurden bei der Bewertung nicht als Verwendun-)
-
-[//]: # (gen von CSW betrachtet. Es wurde versucht, großgeschriebene Wörter nicht zu betrach-)
-
-[//]: # (ten, wie in Abb. 3 im Anhang beim Schritt vor der Prüfung mit dem CSW-Wörterbuch zu)
-
-[//]: # (sehen ist. Trotzdem ist eine falsche Großschreibung in Postings in sozialen Medienüblich,)
-
-[//]: # (zum Beispiel nur das erste Wort großzuschreiben. Deshalb lösen diese fälschlicherweise)
-
-[//]: # (den CSW-Erkennungsalgorithmus aus.)
-
-[//]: # ()
-[//]: # (Eine weitere wichtige Begrenzung des derzeitigen Algorithmus ist die Fähigkeit des Algo-)
-
-[//]: # (rithmus Rechtschreibfehler zu erkennen. Rechtschreibfehlersineaus zwei Grunden problimatisch(zwei häufige Fehler). Erstens führen sie oft dazu, dass der Spracherkennungs-)
-
-[//]: # (algorithmus falsch)
-
-[//]: # (’DE‘ ausgibt, wenn es in Wirklichkeit Englisch ist. Zweitens wurden)
-
-[//]: # (Rechtschreibfehler entdeckt, die dazu fuhren, dass andere Wörter wie CSW-Wörterbuch-)
-
-[//]: # (Wörter geschrieben werden.)
-
-[//]: # ()
-[//]: # (## 6 Fazit)
-
-[//]: # ()
-[//]: # (In diesem Bericht wird eine Methode zur Entwicklung eines großen Datensatzes von)
-
-[//]: # (CSW-Sätzen mit einer mittelhohen Korrektheit beschrieben. Unter Berucksichtigung der)
-
-[//]: # (verfugbaren Zeit und Ressourcen ist dieser Datensatz ein nützliches Ergebnis. Der ge-)
-
-[//]: # (nerierte Datensatz kann die Basis für weitere Forschungsarbeiten sein. Dieser Datensatz)
-
-[//]: # (könnte auch fur andere NLP-Aufgaben benutzt werden. Der Autor hofft, dass diese Arbeit)
-
-[//]: # (zu weiterer Forschung in dem Felt von Deutsch-Englisch-CSW anregt.)
-
-[//]: # ()
-[//]: # (Der vorgestellte Algorithmus ist leider auch mit Begrenzungen verbunden. Die falsche)
-
-[//]: # (Identifizierung von englischen Tweets stellt immer noch ein großes Problem fur die Kon-)
-
-[//]: # (sistenz dieses Datensatzes dar. Insbesondere zum Training Data, ist es für NLP-Modelle)
-
-[//]: # (wichtig sicher zu sein, dass jeder Satz Deutsch Englisch CSW verwendet. Die innovati-)
-
-[//]: # (ve Verwendung des Urban Dictionary erlaubt die Erstellung eines modernen Deutsch-)
-
-[//]: # (Englisch CSW-Datensatzes für Postings in sozialen Medien, zum Beispiel um moderne)
-
-[//]: # (englische Abkürzungen zu erkennen.)
-
-[//]: # ()
-[//]: # (Weitere Bereinigung des Datensatzes oder ein adaptiverer Erkennungsalgorithmus wird)
-
-[//]: # (für verbesserte CSW-Genauigkeit in Zukunft notwendig sein. Bessere Bereinigung der)
-
-[//]: # (Tweets würde mehr Tweets entfernen, die in verschiedenen Dialekten geschrieben sind.)
-
-[//]: # (Außerdem könnte das CSW-Wörterbuch größer sein, um Wörter aus mehr Ländern aufzu-)
-
-[//]: # (nehmen, in denen die Hauptsprache ein Dialekt des Deutschen ist. Mit einer statistischen)
-
-[//]: # (Methode wäre es für den Algorithmus möglich, den Kontext besser zu erkennen.)
-
-[//]: # ()
-[//]: # ()
-[//]: # (## 7 Literaturverzeichnis)
-
-[//]: # (```)
-
-[//]: # (Adda-Decker, M., Pellegrini, T., Bilinski, E. and Adda, G. (2008). Developments of)
-
-[//]: # (“Lëtzebuergesch” Resources for Automatic Speech Processing and Linguistic Studies,)
-
-[//]: # (Proceedings of the Sixth International Conference on Language Resources and Eva-)
-
-[//]: # (luation (LREC’08), European Language Resources Association (ELRA), Marrakech,)
-
-[//]: # (Morocco.)
-
-[//]: # (URL: http://www.lrec-conf.org/proceedings/lrec2008/pdf/855paper.pdf)
-
-[//]: # ()
-[//]: # (Androutsopoulos, J. and Hinnenkamp, V. (2001). Code-Switching in der bilingualen Chat-)
-
-[//]: # (Kommunikation: ein explorativer Blick auf #hellas und #turks,Chat-Kommunikation:)
-
-[//]: # (Sprache, Interaktion, Sozialität & Identität in synchroner computervermittelter Kom-)
-
-[//]: # (munikation.S. 67–401.)
-
-[//]: # ()
-[//]: # (Bierner, M. (2022). Urban Dictionary List.)
-
-[//]: # (URL: https://github.com/mattbierner/urban-dictionary-word-list, Abruf am: 2022-05-)
-
-[//]: # (23.)
-
-[//]: # ()
-[//]: # (Choudhury, M., Srinivasan, A. and Dandapat, S. (2019). Processing and Understanding)
-
-[//]: # (Mixed Language Data,Proceedings of the 2019 Conference on Empirical Methods in)
-
-[//]: # (Natural Language Processing and the 9th International Joint Conference on Natural)
-
-[//]: # (Language Processing (EMNLP-IJCNLP): Tutorial Abstracts, Association for Compu-)
-
-[//]: # (tational Linguistics, Hong Kong, China.)
-
-[//]: # ()
-[//]: # (Eppler, E. (2010). Emigranto: The syntax of German-English code-switching, Wilhelm)
-
-[//]: # (Braumüller Universitäts-Verlagsbuchhandlung.)
-
-[//]: # ()
-[//]: # (Franko, K. (2019). Code-Switching in der computervermittelten Kommunikation. Ei-)
-
-[//]: # (ne Analyse deutsch-italienischer Facebook Beiträge., , Abruf am: 2022-05-23.Ludwig-)
-
-[//]: # (Maximilians-Universität München.)
-
-[//]: # (URL: http://www.kit.gwi.uni-muenchen.de/?p=4442&v=)
-
-[//]: # ()
-[//]: # (Goldhahn, D., Eckart, T. and Quasthoff, U. (2012). Building Large Monolingual Dictio-)
-
-[//]: # (naries at the Leipzig Corpora Collection: From 100 to 200 Languages,Proceedings of the)
-
-[//]: # (Eighth International Conference on Language Resources and Evaluation (LREC’12),)
-
-[//]: # (European Language Resources Association (ELRA), Istanbul, Turkey, S. 759–765.)
-
-[//]: # (URL: http://www.lrec-conf.org/proceedings/lrec2012/pdf/327Paper.pdf)
-
-[//]: # ()
-[//]: # (Kratzke, N. (2022). Monthly Samples of German Tweets. Type: dataset.)
-
-[//]: # (URL: https://zenodo.org/record/6528564/export/hx, Abruf am: 2022-05-23.)
-
-[//]: # ()
-[//]: # (Myers-Scotton, C. (1997).Duelling Languages: Grammatical Structure in Codeswitching,)
-
-[//]: # (Clarendon Press.)
-
-[//]: # (URL: https://books.google.co.uk/books?id=NuYdnTyKkdQC)
-
-[//]: # ()
-[//]: # (Müller, N., Gil, L., Eichler, N., Geveler, J., Hager, M., Jansen, V., Patuto, M., Repetto,)
-
-[//]: # (V. and Schmeißer, A. (2015).Code-Switching: Spanisch, Italienisch, Französisch. Eine)
-
-[//]: # (Einführung, narr studienbücher, Narr Francke Attempto Verlag.)
-
-[//]: # (URL: https://books.google.co.uk/books?id=P213DwAAQBAJ)
-
-[//]: # ()
-[//]: # (Twitter API Documentation(o. J.).)
-
-[//]: # (URL: https://developer.twitter.com/en/docs/twitter-api, Abruf am: 2022-06-06.)
-
-[//]: # ()
-[//]: # ()
-[//]: # (Yang, Z., Hu, B., Han, A., Huang, S. and Ju, Q. (2020). CSP:Code-Switching Pre-training)
-
-[//]: # (for Neural Machine Translation,Proceedings of the 2020 Conference on Empirical Me-)
-
-[//]: # (thods in Natural Language Processing (EMNLP), Association for Computational Lin-)
-
-[//]: # (guistics, Online, S. 2624–2636.)
-
-[//]: # (URL: https://aclanthology.org/2020.emnlp-main.)
-
-[//]: # (```)
-
-[//]: # ()
-[//]: # (## A Anhang)
-
-[//]: # ()
-[//]: # (![image](/images/csw/ab2.jpg))
-
-[//]: # ()
-[//]: # (*Abbildung 2: Ein Beispiel für den Extraktions-, Vorverarbeitungs- und Identifizierungs- schritte*)
-
-[//]: # ()
-[//]: # (![image](/images/csw/ab3.jpg))
-
-[//]: # ()
-[//]: # (*Abbildung 3: Ein Flussdiagramm zur Darstellung des CSW-Erkennungsalgorithmus*)
-
-[//]: # ()
diff --git a/files/igorsternercv.pdf b/files/igorsternercv.pdf
deleted file mode 100644
index 7959e7d8370c1..0000000000000
Binary files a/files/igorsternercv.pdf and /dev/null differ