Je travaille sur l'analyse des sentiments et j'utilise l'ensemble de données indiqué dans ce lien: http://www.cs.jhu.edu/~mdredze/datasets/sentiment/index2.html
et j'ai divisé mon ensemble de données en un rapport 50:50. 50% sont utilisés comme échantillons de test et 50% sont utilisés comme échantillons de train et les caractéristiques extraites des échantillons de train et effectuent la classification à l'aide du classificateur Weka, mais la précision de mes prédictions est d'environ 70 à 75%.
Quelqu'un peut-il suggérer d'autres jeux de données qui puissent m'aider à augmenter le résultat - j'ai utilisé unigramme, bigram et POStags comme caractéristiques.
Il existe de nombreuses sources pour obtenir un ensemble de données d'analyse de sentiment:
Quoi qu'il en soit, cela ne signifie pas que cela vous aidera à obtenir une meilleure précision pour votre jeu de données actuel, car le corpus peut être très différent de votre jeu de données. Outre la réduction du pourcentage de test par rapport à la formation, vous pouvez: tester d'autres classificateurs ou ajuster tous les hyperparamètres à l'aide d'encapsuleurs semi-automatiques tels que CVParameterSelection ou GridSearch, ou même d'auto-weka si cela vous convient.
Il est assez rare d'utiliser 50/50, 80/20 est un rapport assez commun. Une meilleure pratique consiste à utiliser: 60% pour la formation, 20% pour la validation croisée, 20% pour les tests.
J'ai commencé à rassembler des outils/ensembles de données/lexiques d'analyse de sentiment à un endroit, cela pourrait également vous être utile: https://github.com/laugustyniak/awesome-sentiment-analysis
Lancez-vous les relations publiques si vous souhaitez ajouter quelque chose de plus ou tout simplement m'écrire. J'ai beaucoup travaillé avec Amazon data [des millions d'avis].
Voici une liste de jeux de données qui donnent les sentiments pour des mots individuels .. http://positivewordsresearch.com/sentiment-analysis-resources/