_scientific-summary_Dutch.Rmd

Dit doctoraatsonderzoek maakt deel uit van het Nephological Semantics onderzoeksproject bij de QLVL onderzoeksgroep in KU Leuven, dat gericht is op de ontwikkeling van corpus-gebaseerde semantische analyse op grote schaal. Een kernaspect van het project betreft de weergave van semantische structuur door distributionele modellen, een computationele techniek die voorlopig beter beschreven moet worden m.b.t. zijn innerlijke mechanisme en hoe de verhouding tussen zijn resultaten en cognitieve theories van betekenis.

Context-tellende distributionele modellen geven woorden weer as vectoren van gelijktijde-voorkomen frequenties in een multidimensionale ruimte (Turney & Pantel 2010, Lency 2018). Kortom, een woord wordt door de associatiekracht met andere woorden weergegeven. De modellen kunnen zowel op type niveau als op token niveau gecreëerd (Heylen et al. 2012; Heylen et al. 2015, De Pascale 2019). Op type niveau worden twee woorden als gelijkaardig beschouwd als ze tot dezelfde contextuele kenmerken (andere woorden) zijn aangetrokken en dezelfde contextuele kenmerken vermijden. Dit zou de identificaitie van semantische velden en andere relaties toelaten, maar wist de variatie binnen die contexten door ze in een representatie samen te brengen.
Op token niveau worden echter individuele attestaties bekeken en als gelijkaardig beschouwd als de woorden in hun context tot dezelfde contextuele kenmerken aangetrokken worden en dezelfde kenmerken vermijden. Zo zouden we the innerlijke variatie in het gedrag van een bepaald woord, i.e. zijn semasiologische structuur, kunnen beschrijven.

Binnen de omvattende Nephological Semantics project is dit doctoraatsproject betrokken met de inspectie van distributionele modellen op token niveau als instrument voor polisemiestudies. Concreet heb ik een aantal parameterinstellingen (i.e. manieren om de contextuele kenmerken te bepalen) en hun involoed op de weergaven door visuele analyse onderzocht. Handmatig geannoteerde betekenissen werden als heuristiek gebruikt, zonder als "gouden standaard" beschouwd te worden. De bedoeling was echter de verhouding tussen de parameterinstellingen en verschillende geannoteerde semantische verschijnselen, zoals betenekisgranulariteit (b.v. zowel homoniemen als betekennissen binnen de homoniemen te onderscheiden), in kart te brengen.
De distributionele modellen, die de vorm van grote matrices nemen, kunnen door verschillende methoden, zoals t-SNE (), tot twee dimensies verkleind worden. Die coordinaten worden dan in een spreidingsdiagram uitgedrukt; de verschillende vormen die door die diagrammen aangenomen worden noemen we *wolken*.

De procedure werd op 32 Nederlandse zelfstandige naamwoorden, werkwoorden en bijvoeglijke naamworden uitgevoerd die verschillende semantische verschijnselen aantonen. Van elk woord werden 240-320 attestaties uit een corpus van Nederlandse en Vlaamse kranten getrokken, geannoteerd en gemodelleerd. De combinatie van parameterinstellingen, waarvan sommigen met syntactische informatie rekening houden, heeft 200-212 modellen per lemma opgeleverd. De modellen werden door middel van Partition Around Medoids ([@kaufman.rousseeuw_1990; @R-cluster])) gegroepeerd om daar enkel een beheersbaar, representatieve staal van grondig te onderzoeken, vooral door hun t-SNE weergaven te visualiseren.

Dit onderzoek heeft twee belangrijke bijdragen. Enerzijds vormt de verkenning van de mogelijkheden en beperkingen van distributionele modellen in lexicologisch onderzoek de basis voor waarschuwingen, suggesties en richtlijnen voor praktische studies. Met andere woorden, wordten er een evaluatie en verklaring van distributionele modelen vanuit het standpunt van de descriptieve taalkunde aangeboden. Anderzijds wordt er een visualisatie applicatie voorgesteld die ontworpen is om token-level distributionele modellen vanuit een dergelijk standpunt te onderzoeken.