web-dev-qa-db-fra.com

Qu'est-ce que le format de données CoNLL?

Je suis nouveau dans l'exploration de texte. J'utilise un bocal open source (Mate Parser) qui me donne une sortie au format CoNLL 2009 après l'analyse des dépendances. Je souhaite utiliser les résultats d'analyse des dépendances pour l'extraction d'informations. Mais je suis capable de comprendre une partie de la sortie mais pas en mesure de comprendre le format de données CoNLL. Quelqu'un peut-il m'aider à me faire comprendre le format de données CoNLL ?? Tout type de pointeurs serait apprécié.

49
swapna sourav rout

Il existe de nombreux formats CoNLL différents, car CoNLL est une tâche partagée différente chaque année. Le format de CoNLL 2009 est décrit ici . Chaque ligne représente un seul mot avec une série de champs séparés par des tabulations. _s indiquent des valeurs vides. Manuel de Mate-Parser dit qu'il utilise les 12 premières colonnes de CoNLL 2009:

ID FORM LEMMA PLEMMA POS PPOS FEAT PFEAT HEAD PHEAD DEPREL PDEPREL

La définition de certaines de ces colonnes provient de tâches partagées antérieures (le format CoNLL-X utilisé en 2006 et 2007):

  • ID (index de la phrase, commençant à 1)
  • FORM (forme Word elle-même)
  • LEMMA (lemme ou racine de Word)
  • POS (partie du discours)
  • FEAT (liste des caractéristiques morphologiques séparées par |)
  • HEAD (index du parent syntaxique, 0 pour ROOT)
  • DEPREL (relation syntaxique entre HEAD et ce mot)

Il existe des variantes de ces colonnes (par exemple, PPOS mais pas POS) qui commencent par P indiquent que la valeur a été automatiquement prédite plutôt qu'une valeur d'étalon or.

Mise à jour: Il existe désormais également un format de données CoNLL- qui étend le format CoNLL-X.

57
dmcc