ViaVoice : le Mac en dictée
On vous l’avait annoncé dès janvier, et le voilà ! ViaVoice 1.0 pour Macintosh sera dès le 12 mai 2000 sur les étagères des revendeurs. Deux démonstrateurs de chez IBM nous ayant fait l’honneur de venir nous présenter la chose à la Rédac’, et de nous la laisser en test ensuite, voici donc notre première impression (car il y en aura d’autres:-)
Présentation
Logiciels: | ViaVoice Millenium | |
Version: | 1.0 | |
Note de la Rédac: | 5/6 | |
Config. min. | iMac, PowerMac G3/G4, PowerBook G3 MacOS 8.5.x et ultérieurs 233 MHz 64 MB de RAM 300 MB d’espace disque disponible Entrée jack compatible Andrea NC-71 | |
Prix conseillé: | 690 FR | |
Éditeur: | IBM France | |
Site Internet: | www.ibm.com | |
Adresse: | Tour Descartes 2, avenue Gambetta La Défense 5 92066 Paris La Défense France | |
Tel: | (33) 01 49 05 70 00 |
Ayé !
On ne l’attendait plus ! Le voici qui arrive enfin… Viavoice pour Macintosh ! Alors, bien sûr, si parler à son ordinateur, et le voir écrire ce qu’on lui dicte, n’est pas des plus étonnants pour les utilisateurs de PC, c’est une grande nouveauté sur Macintosh, le concept ayant fini par relever quasiment du fantasme. Rappelons d’ailleurs qu’Apple est à l’origine, avec IBM, du mouvement, de reconnaissance vocale. Mais les difficultés financières de Cupertino au moment où ces recherches commençaient l’ont obligé à les abandonner, laissant IBM poursuivre.
Mais avançons. ViaVoice pour Macintosh est fourni avec un casque. Le micro électret est de très bonne facture et le casque présente l’avantage de pouvoir être mis aux couleurs de l’iMac. Ce genre de gadget n’améliore en rien les performances, mais c’est comme tout, un luxe désormais incontournable pour tout produit destiné au monde Macintosh, il n’y avait donc pas de raison d’y couper.
Installation et premiers pas
ViaVoice s’installe simplement en double-cliquant sur l’icône, ce qui pour effet de lancer l’installeur (incroyable, en effet…), qui nous guide ensuite pas à pas dans la configuration de base du logiciel. La seule restriction rencontrée à cette étape est que vous devez absolument installer ViaVoice sur le disque de démarrage. Evidemment ici, à la Rédac’, nous l’avons installé sur une partition… et tout fonctionne ; mais mieux vaut suivre sans doute les recommandations du fabricant.
Ensuite vous aurez la possibilité de choisir une ou plusieurs dictées parmi celles proposées, de manière à pouvoir reconnaître au mieux votre voix. Et c’est ici qu’il convient de saluer l’énorme travail qui a été effectuée dans le domaine de la reconnaissance vocale depuis ses débuts : il vous suffit de quatre dictées de base, proposées par l’assistant, pour vous permettre de taper relativement rapidement du texte dans SpeakPad. Enfin, quand je dis "taper", je me comprends…
En tout, cela représente un investissement d’environ une demi-heure et trois verres d’eau avant de pouvoir utiliser le SpeakPad sans avoir besoin de faire trop de corrections.
Causons !
Vous nous connaissez, consciencieux comme nous sommes, nous avons eu à coeur de tester SpeakPad après chaque lecture de dictée. Pour conduire les tests, nous avons choisi, comme textes de support, l’édito (ne rassemblant pas trop de termes techniques, il nous a paru assez général), une dépêche (comprenant acronymes, chiffres, etc…) et, c’est sans doute notre côté potache, nous n’avons pas pu nous empêcher de voir ce que ça pouvait donner avec un texte de l’excellent Boby Lapointe…
Résultats :
Edito | Dépêche | Boby Lapointe | |
Dictée 1 | Une fois n’est pas coutume, j’oserai m’adresser au maître du maquis et à celles et ceux qui veulent devenir. | Apple a annoncé ce soit ses résultats trimestriels : 233 millions de dollars de bénéfices. Cela représente une notation du ces arbres de 32 % par rapport à la même époque l’année dernière dépassant ainsi de 7 centimes par action les prévisions des analystes lesquelles elle est prévue au mieux des bénéfices de 150 millions… | Ce soir par delà égard et de regard noir et n’a raidir de boire qu’à sa Katia, sa jolie Katia vient de le quitter sa Ketty l’équité il a fait semblant se grand-duc avec ses trucs, ces astuce, céruse de russes blancs mats tactique était tant dit dehors qui s’en dort, ivre mort au comptoir du bar. |
Dictée 2 | Une fois n’est pas coutume, j’oserai madrées serrons OMS train du match est et à celles et ceux qui veulent devenir. D’habitude, les sites maquette fleurissent en été. Quand les passions ont le temps. Mais depuis quelques mois commencent par sourdre de la toile quelqu’un nouveau venu dans la famille du au point de mal francophone (familles tout de même assez réduite), et s’étant mieux. Les six biens au Pise vous dirons qu’il n’y a pas assez de place pour les numéros de sur le net. Nous croyons surtout qu’il y a de la place pour toutes les bonnes volontés. | Apple annoncé ce soir ses résultats trimestriels : 233 millions de dollars de bénéfices. Cela représente une augmentation du ses parts (1,9 milliards de dollars) de 32 % par rapport à la même époque l’année dernière, dépassant ainsi de 7 centimes par action les prévisions des analystes (8800 lieues de 81), lesquels n’avaient prévu, au mieux, des bénéfices de 150 millions… | Ce soir au bar De la gare Igor à diarrhée noire Qu’il arrête guère de pouvoir Car sa CATIA, sa jolie Katia vient de le quitter Cette tête-ci laxité Il a fait chou blanc Ce grand-duc avec ses trucs, ces astuce, céruse du russe blanc "mal tactiques et t’étonne" d’y qui Igor qui s’endort, Ivre mort au comptoir du bar . |
Dictée 3 | Une fois n’est pas coutume j’ose même adressé aux lois de maître Dumas et à celles et ceux qui veulent devenir. | Apple a annoncé ce soir ses résultats trimestriels : 233 millions de dollars de bénéfices. Cela représente une augmentation du CA (1,9 milliards de dollars) de 32 % par rapport à la même époque et l’année dernière, dépassant ainsi de 700 à action les prévisions des analystes (8800 lieues de 81), lesquels avaient prévu, au mieux, des bénéfices de 150 millions… | Ce soir au bar de la gare Igor à garenne – il n’arrête guère de boire sa Katia sa jolie tête sienne de quitter ses Ketty l’équité il a fait chou blanc se grand-duc avec ses trucs ses astuce céruse de russes blancs mats tactique était toques dites Igor qui s’endort ivre mort comptoir du bar |
Dictée 4 | Une fois n’est pas coutume, j’ose même adressé au maître du maquis et à celles et ceux qui veulent devenir. | Apple a annoncé ce soir ses résultats trimestriels : 233 millions de dollars bénéfices. Cela représente une augmentation du CA (1,9 milliards de dollars) de 32 % par rapport à la même époque l’année dernière, dépassant ainsi de cette nts par action les prévisions des analystes (. 88cents au lieu de 81), lesquels avaient prévu, au mieux, des bénéfices de 150 millions… | Ce soir au bar de la gare Igor hagard et noir et n’arrête guère de voir car sa Katia, sa jolie Katia vient de le quitter sec a-t-il équité il a fait chou blanc se grand-duc avec ses trucs ses astuces cette ruse de plus blanc ma tactique était toc dit Igor qui s’endort, ivre mort au comptoir du bar. |
Nous remarquons donc les améliorations des performances du logiciel, qui se révèle meilleur à mesure que les dictées sont passées. Tant mieux, c’était justement l’idée. Si, au début, celui-ci se démène comme il peut pour rétablir au mieux les sons qu’il reçoit avec ceux qu’ils peuvent bien représenter pour lui (nous permettant au passage de nous cultiver : c’est quoi "lécythe" ?), force est de reconnaître qu’après les quatre dictées, le taux de reconnaissance est plutôt honorable. La reconnaissance de celui de Boby Lapointe, justement, dont l’habileté à jouer sur la phonétique des mots n’est plus à démontrer, nous a agréablement surpris. Idéalement, il vous faudra de toute façon lire plusieurs textes propres à votre domaine d’activité, de façon à ce que le logiciel puisse reconnaître au mieux votre façon de prononcer les mots ainsi que le contexte dans lequel vous les employez. Le contexte ? Absolument, j’y viens.
Comment ça marche ?
Si beaucoup de systèmes de reconnaissance sont basés sur des technologies hybrides, symboliques et numériques, ici en tout cas pas trace de réseau de neurones par exemple (contrairement à certains OCR). Certains peuvent penser que cela limite l’efficacité de l’apprentissage et de la proposition spontanée (ie : quand le logiciel ne reconnaît pas exactement, il formule une proposition), mais ces mêmes personnes conviendront au moins que les aberrations sont limitées. La technologie utilisée ne repose pas davantage sur les techniques uniquement à base de phonèmes, même si la base de reconnaissance est constituée de plus de 410000 mots phonétisés (235000 mots de vocabulaire actif en mémoire vive). En fait, la grande amélioration, que l’utilisateur ressent par la possibilité de parler de façon réellement fluide -et on insiste, *réellement* fluide, est due au principe des trigrammes. C’est-à-dire que chaque mot est perçu et analysé en fonction des deux mots qui l’entourent, et proposé ensuite de façon statistique.
les femmes | "son" | belles. |
son |
Par exemple, le logiciel recevant la phrase "les femmes sont belles" détermine entre les différents sons "son" qu’il connaît celui qui a la plus grande probabilité de se trouver entre un "les femmes" et un "belles". C’est ce qui explique que le logiciel "devine" l’orthographe, le genre, et le nombre des mots qu’il écrit… enfin, la plupart du temps. Un exemple très au point est le suivant (c’en est même suspect 🙂 :
"L’enfant est avec sa mère au bord de la mer. Le père est le maire de la commune du bord de mer. Le père et la mère font la paire."
Pour voir, nous avons également testé avec "si six scies scient six cyprès, 606 scies scient 606 cyprès"… toujours sans faute de la part du logiciel ! Du coup, agacés, nous lui avons balancé dans les dents la "dictée des laitues"… à laquelle il n’a rien compris. Ouf ! Force reste à l’humain (encore que… 🙂
On voit donc ici toute l’importance, pour ViaVoice, du contexte dans lequel vous évoluez. Le fait de lui lire vos textes parmi les plus courants lui permet de reconnaître vos "habitudes" de langage, c’est-à-dire votre prononciation associée à votre timbre pour tel ou tel mot courant dans votre contexte, et de limiter au maximum ses risques d’erreur lors de l’affichage. Bien sûr, la partie la plus visible de tout ceci est la possibilité d’enregistrer vous-mêmes vos propres mots dans votre dictionnaire personnel, pouvant contenir jusqu’à 65000 mots. Et comme, pour chaque nouveau mot, vous devez en enregistrer la phonétique (rien à voir avec la convention internationale), cela donne parfois des choses assez savoureuses :
L’essentiel, c’est que ça marche, non ?
Edition et commandes
Mais lire un texte n’est pas tout, il faut pouvoir piloter le logiciel. Par ailleurs, vous l’avez sûrement déjà remarqué, ce qui prend du temps souvent, dans un texte, ce sont les corrections. IBM a prévu le coup, et propose notamment une série de commandes, relatives au logiciel même ou à la correction et l’édition de textes. Tout cela gérable à la voix. La plupart des effets de texte (gras, italique, souligné), comme les fonctions d’édition de base (effacer, remplacer, corriger) peuvent être réalisées à la voix au moyen de la commande idoine. Notez également que vous pouvez à tout moment au cours de la dictée appeler la liste récapitulative des commandes.
"Oui mais comment fait donc la machine pour dissocier mon texte de mes commandes ?", nous demanderez-vous, perspicaces comme vous l’êtes. C’est sans doute le seul petit "truc" à prendre : il faut marquer une pause et prononcer la commande d’une seule traite. Si la chose se révèle relativement aisée pour un "corriger ceci" (corijésseussi), c’est plus délicat dès qu’on se lance dans le "sélectionner jusqu’à la fin du document" (séleksionéjuskalafindudokuman… ouf). Dans l’ensemble, il faut quelques ratés avant de s’y faire. De toute façon, des ratés il y en aura, la maîtrise du logiciel réclamant que l’on s’habitue nous-mêmes à sa façon de fonctionner.
Auxéventuelles fautes qu’il arrive de faire en général, il faudra donc ici ajouter dans un premier temps celles réaliséesparlelogiciel,concernant le plus souvent des groupes de mots mal reconnus, ou encore des fautes de genre et de nombre. Conscient de cela, IBM a prévu des fonctions d’éditions : il est possible de faire appel à un module de correction, qui donne alors des choix possibles. Il est même recommandé, tout au moins au début, de corriger le plus possible les textes par cet intermédiaire, car il permet au logiciel de corriger lui-même sa façon de reconnaître votre prononciation du mot correct.
Si tout rate, il vous reste encore la possibilité de passer en "mode épellation", et d’épeler alors le mot inconnu de ViaVoice, soit lettre par lettre (a, b, c,… ), soit en utilisant l’aphabet militaire (alpha, bravo, charlie,…). Petite coquetterie, si vous dites h et que ViaVoice tape hache, il vous suffit de dire "Comme dans hôtel" pour que le mot hache soit remplacé par la lettre h. Cette sensation d’être compris… c’est quelque chose !
Enfin, si vraiment vous n’y arrivez pas (et la tentation est grande au début de passer directement à cette solution), vous pouvez exporter votre texte directement dans Word, AppleWorks, Nestcape ou Outlook Express par un simple "Exporter vers…" rageur. Nous ne conseillons pas ceci dans le cadre de vos premiers pas, mais c’est très utile ensuite, pour l’exportation justement, laquelle exportation peut d’ailleurs s’effectuer virtuellement dans n’importe quelle application, via le presse-papier. En fait, ViaVoice est un logiciel qui demande quelques efforts pour que l’on s’y fasse, mais qui rend plutôt bien par la suite la peine qu’on s’est donnée au départ.
Les plus et moins
Parmi ce qui ne nous a pas trop séduits, nous citerons en premier lieu l’obligation d’utiliser une bonne dose de mémoire virtuelle (même si on comprend bien qu’il n’est pas trop possible de s’en passer), et l’interface somme toute relativement rudimentaire. Gageons que ce sera là l’objet des améliorations des versions ultérieures.
Enfin, cerise ultime : ViaVoice est scriptable ! J’en connais déjà qui imaginent mille et une applications… et bien il va falloir déchanter un peu et attendre qu’IBM ait le temps de se pencher sur le problème. En effet, si avoir prévu la scriptabilité est une bonne chose, force est de reconnaître que, pour l’instant, la réalisation en est pour le moins rudimentaire (voir le compte-rendu de patpro à ce sujet).
Pour finir
Le point qui nous a paru le plus fort dans ce logiciel, le premier de son genre pour Macintosh, est la rapidité de traitement et surtout la fiabilité de la reconnaissance. Bien sûr, d’une part nous l’avons testé sur un G4/400, et d’autre part il y a encore des ratés, qu’un être humain ne ferait sans doute pas (et inversement d’ailleurs : c’est quoi "lécyhte" ? :-), mais en comparaison de ce qui se faisait il y a encore un an, c’est impressionnant. Pressée par Apple de sortir au plus vite son logiciel pour Mac, IBM a donc mis le paquet sur l’essentiel : l’efficacité. Et c’est réussi. Certes, l’interface pêche encore par endroit (le look&feel est pourtant très "Mac"), et les fonctions d’éditions restent somme tout assez sommaires. Mais le but principal est selon nous définitivement atteint : vous dictez un texte à votre propre rythme, et il s’affiche correctement. Nous qui sommes d’habitude extrêmement réticents (doux euphémisme) vis-à-vis de ce genre de logiciel, il faut bien reconnaître que ViaVoice nous a étonnés ! Alors un double bravo à IBM : bravo pour avoir (enfin) sorti ViaVoice pour Mac, et bravo pour avoir sorti un programme qui est très loin du gadget… un vrai programme,
efficace !
- image 75 x 102
- image 346 x 129
- image 254 x 119
- image 323 x 141
- image 223 x 134