Où puis-je obtenir un corpus de documents qui ont déjà été classés comme positifs/négatifs pour le sentiment dans le domaine de l'entreprise? Je veux un grand corpus de documents qui fournissent des critiques pour les entreprises, comme des critiques d'entreprises fournies par des analystes et des médias.
Je trouve des corpus qui ont des critiques de produits et de films. Existe-t-il un corpus pour le domaine des affaires, y compris des critiques d'entreprises, qui correspondent à la langue des affaires?
http://www.cs.cornell.edu/home/llee/data/
http://mpqa.cs.pitt.edu/corpora/mpqa_corpus
Vous pouvez utiliser Twitter, avec ses smileys, comme ceci: http://web.archive.org/web/20111119181304/http://deepthoughtinc.com/wp-content/uploads/2011/01/Twitter- as-a-Corpus-for-Sentiment-Analysis-and-Opinion-Mining.pdf
J'espère que cela vous aidera à démarrer. Il y a plus dans la littérature, si vous êtes intéressé par des sous-tâches spécifiques comme la négation, la portée des sentiments, etc.
Pour vous concentrer sur les entreprises, vous pouvez coupler une méthode avec la détection de sujets, ou à bon marché juste un grand nombre de mentions d'une entreprise donnée. Ou vous pourriez faire annoter vos données par Mechanical Turkers.
Voici une liste que j'ai écrite il y a quelques semaines, de mon blog . Certains de ces ensembles de données ont été récemment inclus dans la plateforme NLTK Python.
Lexique d'opinion par Bing Liu
Lexique de subjectivité MPQA
SentiWordNet
Harvard General Inquirer
Enquête linguistique et nombre de mots (LIWC)
Lexique Vader
Ensembles de données MPQA
[~ # ~] notes [~ # ~] : GNU Licence publique.
Sentiment140 (Tweets)
STS-Gold (Tweets)
Ensemble de données d'avis client (Avis produit)
Inclus dans la plateforme NLTK Python
Ensemble de données Avantages et inconvénients (Phrases Avantages et inconvénients)
<pros>
ou <cons>
Inclus dans la plateforme NLTK Python
Phrases comparatives (Critiques)
Inclus dans la plateforme NLTK Python
Corpus de sentiments Twitter Sanders Analytics (Tweets)
5513 tweets classés à la main sur 4 sujets différents. En raison des ToS de Twitter, un petit script Python est inclus pour télécharger tous les tweets. Les classifications des sentiments elles-mêmes sont fournies gratuitement et sans restrictions. Elles peuvent être utilisées pour des produits commerciaux. redistribués, ils peuvent être modifiés.
Tweets espagnols (Tweets)
SemEval 2014 (Tweets)
VOUS NE DEVEZ PAS redistribuer les tweets, les annotations ou le corpus obtenus (à partir du fichier readme)
Divers ensembles de données (Avis)
Divers ensembles de données n ° 2 (Avis)
Références:
Si vous avez des ressources (canaux médiatiques, blogs, etc.) sur le domaine que vous souhaitez explorer, vous pouvez créer votre propre corpus. Je fais ça en python:
La création de corpus est un travail acharné de prétraitement, de vérification, de balisage, etc., mais présente les avantages de préparer un modèle pour un domaine spécifique plusieurs fois en augmentant la précision. Si vous pouvez obtenir un corpus déjà préparé, poursuivez l'analyse des sentiments;)
Je ne suis pas au courant qu'un tel corpus soit disponible gratuitement, mais vous pouvez essayer une méthode non supervisée sur un ensemble de données sans étiquette.
Vous pouvez obtenir une large sélection de critiques en ligne de Datafiniti. La plupart des critiques contiennent des données de notation, qui fourniraient plus de granularité sur le sentiment que positif/négatif. Voici une liste des entreprises avec des critiques , et voici une liste des produits avec des critiques .