-
Notifications
You must be signed in to change notification settings - Fork 0
Parsing des copies normalisées et annotées
yoannbard edited this page Jul 5, 2021
·
1 revision
- Le toolkit Stanza (https://stanfordnlp.github.io/stanza/) a été utilisé pour parser et POStaguer les copies normalisées au format AC.
- Puis on aligne ces sorties stanza avec les fichiers d'annotations au format AA (Glozz) afin de récupérer les informations morpho-syntaxiques sur chaque maillons annotés.
On obtient en sortie un fichier CSV avec pour chaque token d'une copie :
- son lemme
- sa catégorie grammaticale
- sa fonction syntaxique
- sa position dans le texte (offsets)
- son annotation de la continuité référentielle
Voir script ici : https://github.com/hodaclm/resolco/blob/master/scripts/stanza_parser.ipynb*