J'ai lu de nombreux articles expliquant la nécessité d'un ensemble initial de textes classés «positifs» ou «négatifs» avant qu'un système d'analyse des sentiments ne fonctionne réellement.
Ma question est la suivante: quelqu'un a-t-il déjà tenté de faire une vérification rudimentaire des adjectifs «positifs» par rapport aux adjectifs «négatifs», en tenant compte des simples négateurs pour éviter de classer «non content» comme positif? Si oui, y a-t-il des articles qui expliquent pourquoi cette stratégie n'est pas réaliste?
Un article classique de Peter Turney (2002) explique une méthode permettant d'analyser les sentiments sans surveillance (classification positive/négative) en utilisant uniquement les mots excellent et pauvre comme germe. Turney utilise les informations mutuelles d'autres mots avec ces deux adjectifs pour atteindre une précision de 74%.
Je n'ai pas encore essayé d'analyser les sentiments sans formation, comme vous le décrivez, mais je dirais que vous simplifiez énormément le problème. L'analyse des adjectifs ne suffit pas pour bien saisir le sentiment d'un texte; Par exemple, considérez le mot «stupide». Seul, vous qualifieriez cela de négatif, mais si une critique de produit comportait '... [x] le produit donne à ses concurrents une apparence stupide de ne pas avoir pensé à cette fonctionnalité d'abord…', alors le sentiment qui règne à cet endroit serait définitivement positif. . Le contexte plus général dans lequel les mots apparaissent a certainement une importance dans quelque chose comme ceci. C'est la raison pour laquelle une approche de sac à mots non entraînée à elle seule (sans parler d'un sac à adjectifs encore plus limité) ne suffit pas pour résoudre ce problème de manière adéquate.
Les données préclassifiées («données de formation») aident en ce sens que le problème consiste à essayer de déterminer si un texte suscite un sentiment positif ou négatif, à essayer de déterminer si le texte ressemble davantage à un texte positif ou à un texte négatif. et le classer de cette façon. L'autre point important est que les analyses textuelles telles que l'analyse des sentiments sont souvent fortement affectées par les différences entre les caractéristiques des textes en fonction du domaine. C’est pourquoi il est aussi important de disposer d’un bon ensemble de données (c’est-à-dire des données précises provenant du domaine dans lequel vous travaillez et qui, espérons-le, est représentatif des textes que vous allez classer) système à classer avec.
Ce n'est pas vraiment un article, mais j'espère que cela vous aidera.
Le papier de Turney (2002) cité par Larsmans est bon. Dans une étude plus récente, Li et He [2009] introduisent une approche utilisant (Latda Dirichlet Allocation (LDA)) pour former un modèle capable de classer simultanément le sentiment général et le sujet d'un article de manière totalement non supervisée. La précision qu'ils atteignent est de 84,6%.
J'ai essayé plusieurs méthodes d'analyse de sentiments pour l'extraction d'opinions dans Reviews. Ce qui a fonctionné le mieux pour moi est la méthode décrite dans Liu book: http://www.cs.uic.edu/~liub/WebMiningBook.html Dans ce livre, Liu et d’autres ont comparé de nombreuses stratégies et a discuté de différents documents sur l'analyse des sentiments et l'extraction d'opinions.
Bien que mon objectif principal soit d'extraire des caractéristiques dans les opinions, j'ai mis en place un classifieur de sentiments afin de détecter une classification positive et négative de ces caractéristiques.
J'ai utilisé NLTK pour le pré-traitement (tokenisation de Word, marquage POS) et la création de trigrammes. Ensuite, j’ai aussi utilisé les classificateurs bayésiens à l’intérieur de ce lecteur pour les comparer à d’autres stratégies que Liu mettait au point.
L'une des méthodes repose sur le marquage en tant que pos/neg de chaque trigrram exprimant cette information, et l'utilisation d'un classifieur sur ces données. Une autre méthode que j’ai essayée et qui fonctionnait mieux (précision d’environ 85% dans mon jeu de données) consistait à calculer la somme des scores de PMI (information mutuelle ponctuelle) pour chaque mot de la phrase et les mots excellent/mauvais en tant que graines de classe pos/neg.
David
Je ne sais pas si cela vous aidera, mais vous voudrez peut-être examiner l'article de Jacob Perkin blog sur l'utilisation de NLTK pour l'analyse des sentiments.
J'ai essayé de repérer des mots-clés en utilisant un dictionnaire d'affectation pour prédire l'étiquette du sentiment au niveau de la phrase. Compte tenu de la généralité du vocabulaire (non dépendant du domaine), les résultats étaient à peu près de 61%. Le document est disponible sur ma page d'accueil.
Dans une version légèrement améliorée, les adverbes de négation ont été pris en compte. L'ensemble du système, nommé EmoLib, est disponible pour démonstration:
http://dtminredis.housing.salle.url.edu:8080/EmoLib/
Cordialement,
Il n'y a pas de "raccourci" magique dans l'analyse des sentiments, comme dans tout autre type d'analyse de texte qui cherche à découvrir le "sous-traitance" sous-jacent d'un bloc de texte. Tenter de raccourcir les méthodes d’analyse de texte éprouvées par le biais d’une vérification «adjectif» simpliste ou d’approches similaires conduit à une ambiguïté, une classification incorrecte, etc. Plus la source est laconique (par exemple, Twitter), plus le problème est difficile à résoudre.