quand je coupe du texte, j'obtiens beaucoup de codes dans la sortie comme NN, VBD, IN, DT, NNS, RB
. Y a-t-il une liste documentée quelque part qui me donne la signification de ceux-ci? J'ai essayé de googler nltk chunk code
nltk chunk grammar
nltk chunk tokens
.
Mais je ne trouve aucune documentation expliquant ce que signifient ces codes.
Les balises que vous voyez ne sont pas le résultat des blocs mais du balisage POS qui se produit avant le découpage. C'est le jeu de balises Penn Treebank, voir https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html
>>> from nltk import Word_tokenize, pos_tag, ne_chunk
>>> sent = "This is a Foo Bar sentence."
# POS tag.
>>> nltk.pos_tag(Word_tokenize(sent))
[('This', 'DT'), ('is', 'VBZ'), ('a', 'DT'), ('Foo', 'NNP'), ('Bar', 'NNP'), ('sentence', 'NN'), ('.', '.')]
>>> tagged_sent = nltk.pos_tag(Word_tokenize(sent))
# Chunk.
>>> ne_chunk(tagged_sent)
Tree('S', [('This', 'DT'), ('is', 'VBZ'), ('a', 'DT'), Tree('ORGANIZATION', [('Foo', 'NNP'), ('Bar', 'NNP')]), ('sentence', 'NN'), ('.', '.')])
Pour obtenir les morceaux, recherchez les sous-arbres dans les sorties fragmentées. De la sortie ci-dessus, la Tree('ORGANIZATION', [('Foo', 'NNP'), ('Bar', 'NNP')])
indique le morceau.
Ce site de didacticiel est assez utile pour expliquer le processus de segmentation en NLTK: http://www.eecis.udel.edu/~trnka/CISC889-11S/lectures/dongqing-chunking.pdf .
Pour la documentation officielle, voir http://www.nltk.org/howto/chunk.html
Même si les liens ci-dessus ont toutes sortes. Mais espérons que cela sera toujours utile pour quelqu'un, ont ajouté quelques-uns qui sont manqués sur d'autres liens.
CC : Coordonner la conjonction
CD : numéro cardinal
DT : déterminant
EX : Existant là
FW : Mot étranger
DANS : Préposition ou conjonction subordonnée
JJ : Adjectif
VP : Phrase verbale
JJR : Adjectif, comparatif
JJS : Adjectif, superlatif
LS : Liste des marqueurs d'élément
MD : Modal
NN : nom, singulier ou masse
NNS : nom, pluriel
PP : Phrase de préposition
NNP : nom propre, phrase singulière
NNPS : nom propre, pluriel
PDT : Pré-déterminant
POS : Fin possessive
PRP : Phrase de pronom personnel
PRP : Phrase de pronom possessif
RB : Adverbe
RBR : Adverbe, comparatif
RBS : adverbe, superlatif
RP : Particule
S : Clause déclarative simple
SBAR : clause introduite par une conjonction subordonnée (éventuellement vide)
SBARQ : Question directe introduite par un mot wh ou une phrase wh.
SINV : phrase déclarative inversée, c'est-à-dire une phrase dans laquelle le sujet suit le verbe ou le modal tendu.
SQ : Question oui/non inversée, ou clause principale d'une question wh, suivant la phrase wh dans SBARQ.
SYM : Symbole
VBD : Verbe, passé
VBG : verbe, gérondif ou participe présent
VBN : Verbe, participe passé
VBP : Verbe, présent non singulier de la troisième personne
VBZ : Verbe, présent de la troisième personne du singulier
WDT : Wh-determiner
WP : Wh-pronom
WP : pronom wh possessif
WRB : Wh-adverbe
Comme indiqué par Alvas ci-dessus, ces balises sont une partie du discours qui indique si un mot/une phrase est une phrase nominale, un adverbe, un déterminant, un verbe, etc.
Voici les détails POS Tag que vous pouvez vous référer.
Chunking recovers the phrased from the Part of speech tags
Vous pouvez vous référer à cette lien pour la lecture sur à propos de la segmentation.