Skip to content

Parsing des copies normalisées et annotées

yoannbard edited this page Jul 5, 2021 · 1 revision
  1. Le toolkit Stanza (https://stanfordnlp.github.io/stanza/) a été utilisé pour parser et POStaguer les copies normalisées au format AC.
  2. Puis on aligne ces sorties stanza avec les fichiers d'annotations au format AA (Glozz) afin de récupérer les informations morpho-syntaxiques sur chaque maillons annotés.

On obtient en sortie un fichier CSV avec pour chaque token d'une copie :

  • son lemme
  • sa catégorie grammaticale
  • sa fonction syntaxique
  • sa position dans le texte (offsets)
  • son annotation de la continuité référentielle

Voir script ici : https://github.com/hodaclm/resolco/blob/master/scripts/stanza_parser.ipynb*