web-dev-qa-db-fra.com

Données d'entraînement pour l'analyse des sentiments

Où puis-je obtenir un corpus de documents qui ont déjà été classés comme positifs/négatifs pour le sentiment dans le domaine de l'entreprise? Je veux un grand corpus de documents qui fournissent des critiques pour les entreprises, comme des critiques d'entreprises fournies par des analystes et des médias.

Je trouve des corpus qui ont des critiques de produits et de films. Existe-t-il un corpus pour le domaine des affaires, y compris des critiques d'entreprises, qui correspondent à la langue des affaires?

55
London guy

http://www.cs.cornell.edu/home/llee/data/

http://mpqa.cs.pitt.edu/corpora/mpqa_corpus

Vous pouvez utiliser Twitter, avec ses smileys, comme ceci: http://web.archive.org/web/20111119181304/http://deepthoughtinc.com/wp-content/uploads/2011/01/Twitter- as-a-Corpus-for-Sentiment-Analysis-and-Opinion-Mining.pdf

J'espère que cela vous aidera à démarrer. Il y a plus dans la littérature, si vous êtes intéressé par des sous-tâches spécifiques comme la négation, la portée des sentiments, etc.

Pour vous concentrer sur les entreprises, vous pouvez coupler une méthode avec la détection de sujets, ou à bon marché juste un grand nombre de mentions d'une entreprise donnée. Ou vous pourriez faire annoter vos données par Mechanical Turkers.

37
Gregory Marton

Voici une liste que j'ai écrite il y a quelques semaines, de mon blog . Certains de ces ensembles de données ont été récemment inclus dans la plateforme NLTK Python.

Lexiques


Jeux de données


Références:

23
Kurt Bourbaki
12
y2p

Si vous avez des ressources (canaux médiatiques, blogs, etc.) sur le domaine que vous souhaitez explorer, vous pouvez créer votre propre corpus. Je fais ça en python:

  • en utilisant Beautiful Soup http://www.crummy.com/software/BeautifulSoup/ pour analyser le contenu que je veux classer.
  • séparer ces phrases signifiant des opinions positives/négatives sur les entreprises.
  • Utilisez NLTK pour traiter ces phrases, tokeniser les mots, le marquage POS, etc.
  • Utilisez NLTK PMI pour calculer les bigrammes ou trigrammes les plus fréquents dans une seule classe

La création de corpus est un travail acharné de prétraitement, de vérification, de balisage, etc., mais présente les avantages de préparer un modèle pour un domaine spécifique plusieurs fois en augmentant la précision. Si vous pouvez obtenir un corpus déjà préparé, poursuivez l'analyse des sentiments;)

4
Luchux

Je ne suis pas au courant qu'un tel corpus soit disponible gratuitement, mais vous pouvez essayer une méthode non supervisée sur un ensemble de données sans étiquette.

1
Fred Foo

Vous pouvez obtenir une large sélection de critiques en ligne de Datafiniti. La plupart des critiques contiennent des données de notation, qui fourniraient plus de granularité sur le sentiment que positif/négatif. Voici une liste des entreprises avec des critiques , et voici une liste des produits avec des critiques .

0
shiondev