Ce dépôt regroupe tous les scripts pour installer/entraîner/utiliser grobid avec les PDF de l'API ISTEX.
-
En utilisation "quotidienne", intégrée à une chaîne de production
bib-install-vp
pour installer sur un serveur de production une version adaptée à nos besoins.bib-get
pour obtenir des bibs structuréesbib-checkout
pour les ré-identifier et les lier
-
Pour des nouveaux "profils de documents"
bib-adapt-corpus
pour entraîner grobid "à retrouver les bonnes réponses" sur des corpus PDF + XML gold (c'est-à-dire faire de nouveaux modèles CRF pour des nouveaux "profils de documents") ainsi que stocker, classer et évaluer les différents types de modèles CRF entraînés (bibzone, bibfields, etc.)
Pour les utilisateurs qui veulent juste baliser des PDFs avec grobid, le client bib-get
a un dépôt autonome ici. C'est le point de départ conseillé lorsqu'on ne veut pas des fonctions avancées. La suite applicative "refbibs-stack" n'a qu'un intérêt pour des tâches plus avancées que le simple balisage : installation de grobid, évaluation, entraînements, résolution.
Après une phase d'un an de développements séparés, la stack arrive à maturité en septembre 2015.
MODULE | STATUT | LANG | REMARQUES |
---|---|---|---|
bib-get | prod | python3 | PDF => bibs XML-TEI, via client grobid (intégré loadIstex) |
bib-findout-api | tests | python3 | bib XML-TEI -> query ES -> match souple -> ID API du doc |
bib-install-vp | prod | python3 | installe grobid v0.3.4 avec les modèles istexRD2015 |
bib-eval | prod | perl | écrit un rapport résumé et des logs tabulaires détaillés |
bib-adapt-corpus | prod | python3 + XSL | assistance à la création de corpus et nouveaux modèles CRF |
Cette suite intègre directement deux dépôts construits par ailleurs, en les important sous la forme d'un git subtree
:
- le client bib-get qui a son dépôt autonome (cf. remarque ci-dessus)
- la librairie libconsulte pour l'échantillonage des corpus ISTEX et les interactions avec l'API
cette librairie importe à son tour:
- une version modifiée des feuilles de transformation XSLT Pub2TEI du projet PEER, développées par L. Romary et P. Lopez.
- une version modifiée des DTDs éditeurs de istex/corpus-ressources
Pour tout travail de développement, il faut être conscient de ces dépendances, mais à l'utilisation ce n'est pas important.
- dockerisations
- un bib-install-vi avec git pour un grobid utilisé en training
- paramètrage bako + complet (critères arrêt, params prépas ragréage/Pub2TEI, params éval)
- Chez Patrice Lopez, l'auteur de Grobid
- Chez ISTEX:
romain.loth at inist.fr
romain.loth at iscpif.fr
istex at inist.fr
rd-team at listes.istex.fr
© 2014-16 Inist-CNRS (ISTEX)