web-dev-qa-db-fra.com

Existe-t-il un logiciel de reconnaissance vocale décent pour Linux?

La version courte de la question: je suis à la recherche d'un logiciel de reconnaissance vocale qui fonctionne sous Linux et qui a une précision et une facilité d'utilisation décentes. Toute licence et prix est très bien. Il ne devrait pas être limité aux commandes vocales, car je veux pouvoir dicter du texte.


Plus de détails:

J'ai essayé de façon insatisfaisante ce qui suit:

Toutes les solutions Linux natives mentionnées ci-dessus ont à la fois une précision et une facilité d'utilisation médiocres (ou certaines n'autorisent pas la dictée de texte libre mais uniquement les commandes vocales). Par mauvaise précision, je veux dire une précision nettement inférieure à celle du logiciel de reconnaissance vocale que j'ai mentionné ci-dessous pour les autres plates-formes. Quant à Wine + Dragon NaturallySpeaking, d'après mon expérience, il continue de planter, et je ne semble pas être le seul à avoir de tels problèmes malheureusement.

Sur Microsoft Windows, j'utilise Dragon NaturallySpeaking, sur Apple Mac OS XI utilise Apple Dictation et DragonDictate, sur Android J'utilise Reconnaissance vocale Google, et sur iOS j'utilise la reconnaissance vocale intégrée Apple.

Baidu Research a publié hier le code pour sa bibliothèque de reconnaissance vocale en utilisant Connectionist Temporal Classification implémenté avec Torch. Les références de Gigaom sont encourageantes comme le montre la capture d'écran ci-dessous, mais je ne connais pas de bon wrapper pour le rendre utilisable sans un certain codage (et un grand ensemble de données de formation):

enter image description here

Il existe des projets open source très alpha:

Je suis également au courant de cela tentative de suivi de l'état de l'art et des résultats récents (bibliographie) sur la reconnaissance vocale. ainsi que de cette référence des API de reconnaissance vocale existantes .


Je connais Aenea , qui permet la reconnaissance vocale via Dragonfly sur un ordinateur pour envoyer des événements à un autre, mais cela a un certain coût de latence:

enter image description here

Je suis également au courant de ces deux discussions explorant l'option Linux pour la reconnaissance vocale:

61
Franck Dernoncourt

En ce moment, j'expérimente l'utilisation de KDE Connect en combinaison avec la reconnaissance vocale Google sur mon Android smartphone.

KDE connect vous permet d'utiliser votre Android comme périphérique d'entrée pour votre ordinateur Linux (il existe également d'autres fonctionnalités). Vous devez installer l'application KDE connect depuis le Google Play Store sur votre smartphone/tablette et installez à la fois kdeconnect et indicator-kdeconnect sur votre ordinateur Linux. Pour les systèmes Ubuntu, l'installation se déroule comme suit:

Sudo add-apt-repository ppa:vikoadi/ppa
Sudo apt update
Sudo apt install kdeconnect indicator-kdeconnect

L'inconvénient de cette installation est qu'elle installe un tas de packages KDE dont vous n'avez pas besoin si vous n'utilisez pas l'environnement de bureau KDE.

Une fois que vous avez couplé votre Android avec votre ordinateur (ils doivent être sur le même réseau), vous pouvez utiliser le clavier Android puis cliquez/appuyez sur le micro pour utiliser la reconnaissance vocale Google. Au fur et à mesure que vous parlez, le texte commence à apparaître là où votre curseur est actif sur votre ordinateur Linux.

Quant aux résultats, ils sont un peu mitigés pour moi car j'écris actuellement un document technique d'astrophysique et la reconnaissance vocale de Google a du mal avec le jargon que vous ne lisez généralement pas. N'oubliez pas non plus de déterminer la ponctuation ou la capitalisation appropriée.

enter image description here

enter image description here

16
shockburner

Pour l'instant, seul Carnet vocal fonctionne sous Linux.

4
Alexei

En tant qu'un autre Linuxer à la recherche d'un programme utile de synthèse vocale (dictée), j'ai jeté un œil à speechpad.pw:

  • il reconnaît très bien ma langue maternelle
  • cela fonctionne rapidement et très fiable

Inconvénients:

  • bien sûr, il s'agit d'un logiciel propriétaire et fermé de Google
  • un service Google écoutera, traitera et stockera soi-disant chaque mot que vous prononcez
  • l'audio et le texte seront traités et évidemment stockés par Google
  • speechpad.pw nécessite un abonnement mensuel/trimestriel/annuel
  • speechpad.pw ne fonctionne que comme un addon à Google Chrome - aucun autre navigateur

Ainsi, speechpad.pw est une source très propriétaire et également fermée et également liée à Google que nous connaissons tous en tant que collecteur de métadonnées, d'informations personnelles et de contenu personnel.

Ces inconvénients en font une application interdite pour moi, bien que la reconnaissance vocale elle-même fonctionne très bien - bien mieux que tout ce que j'ai vu jusqu'à présent.

3
too

J'utilise l'application KD Connect. cela fonctionne assez efficacement! Je peux garder mes yeux sur le moniteur tout en parlant avec le téléphone sur le bureau. Le seul inconvénient est que cela se fait via le clavier Google. il n'est ni gratuit, ni natif, ni open source. ce commentaire a été posté sans apporter de corrections

2
Josh Levine

Je recommanderais Mozilla DeepSpeech . C'est un outil de synthèse vocale open source. Mais vous devrez former l'outil.

Vous pouvez télécharger le modèle pré-formé ou utiliser Mozilla Common Voice DataSets pour créer le vôtre. Pour des enregistrements très clairs, le taux de précision est bon. Pour mes projets de transcription, ce n'était toujours pas suffisant, car les enregistrements avaient beaucoup de bruits de fond et n'étaient pas de grande qualité.

J'ai utilisé Transcribear à la place, un outil de synthèse vocale basé sur un navigateur. Vous devrez être connecté en ligne pour télécharger des enregistrements sur le serveur Transcribear.

2
John

L'application Chrome "VoiceNote II" ( http://voicenote.in/ ) fonctionne très bien sur ma machine Xubuntu 16.04. Aucune formation vocale requise, et définissez -up était simple: une recherche pour le trouver, un clic pour l'installer, un clic pour créer un raccourci et le lier au bureau.

2
Indy Tech Fix

Je suggère d'utiliser Dragon sur votre téléphone ou votre tablette, puis de vous envoyer le texte par e-mail. C'est un frein mais cela fonctionne et est très précis. Si vous insistez pour utiliser Linux pour cela, obtenir un deuxième écran rendra la vie et la copie beaucoup plus faciles.

Je n'ai pas essayé cela, mais vous pourrez peut-être utiliser ou adapter le programme de discussion Bluetooth Python avec dragon sur votre tablette/téléphone. Il peut également y avoir des applications de clavier à distance pour les appareils mobiles qui peuvent prise en charge de la dictée.

Je vais expérimenter et essayer de vous répondre avec quelque chose de plus définitif.

0
user273470