Skip to content

Latest commit

 

History

History
19 lines (13 loc) · 1.26 KB

README.md

File metadata and controls

19 lines (13 loc) · 1.26 KB
description
Guide de bonnes pratiques pour constituer un corpus de textes intégraux à partir d'ISTEX en vue d'une utilisation pour la fouille de textes (TAL, TDM)
# Usage TDM d'ISTEX Cette rubrique se caractérise comme un **guide de bonnes pratiques** à destination des utilisateurs d'ISTEX souhaitant **constituer un corpus de textes intégraux** à partir de l'API, en vue d'une utilisation éventuelle en traitement automatique des langues \(TAL\) ou en fouille de textes et de données \(TDM\). Elle présente des conseils et des astuces sur la [**construction d'une requête**](requetage/), sur l'[**extraction du corpus**](extraction/) et sur la [**vérification et la mise en forme des résultats**](verification/), à l'aide de nombreux exemples issus notamment de corpus créés pour les applications suivantes : * Test d'un outil de détection et de désambiguïsation d’entités nommées en Systématique animale et végétale * Test d'un outil de détection de définitions de concepts en Astrophysique * Analyse thématique d'un corpus sur le Vieillissement ou sur l'Arctique * Extractions terminologiques dans le domaine de l'Orthophonie Elle est complétée en [**annexe** ](annexes/)par des listes de valeurs permettant de construire sa requête.