Après les grands progrès de recherche réalisés dans les domaines du traitement automatique de la parole et de la modélisation mathématique du processus de la production de la voix humaine, les grandes compagnies technologiques ont décidé d’investir dans l’industrialisation de certaines solutions très utiles aux usagers du numérique.
Le signal vocal, lors de son traitement par un processeur intégré à l’intérieur d’un smartphone, ou son transport par les réseaux des opérateurs des télécommunications, est aujourd’hui traité par les équipements numériques avec plus d’efficacité. Mieux, les performances scientifiques enregistrées ces dernières années dans le « speech processing » ont mené à une analyse et une synthèse de la parole de qualité acceptable, à une reconnaissance automatique de parole robuste et productive, au système de reconnaissance du locuteur et à la réalisation de codeurs de parole plus efficaces. Ce qui a validé un apport positif des technologies vocales dans la téléphonie mobile, les logiciels performants des codage et compression des données, la messagerie électronique (Voice mail), les systèmes de traduction en ligne, les terminaux mobiles intelligents, les ordinateurs individuels, les voitures connectées et les réseaux informatiques. Aujourd’hui, le rôle primordial du traitement automatique du langage naturel dans la communication parlée Homme/Machine est de plus en plus évoqué dans de nombreux ateliers consacrés à l’avenir de l’informatique et des télécommunications. Ce qui a poussé des sociétés comme Google, Intel, Microsoft, Apple ou Amazon à rajouter le canal voix dans les environnements software et hardware des produits IT. Pour elles, inclure la voix dans les projets digitaux devient un impératif économique. C’est ainsi, que Google a lancé la version bêta de « Voice Access », une application de reconnaissance de la parole visant à s’en passer du clavier dans l’utilisation d’un smartphone sous Android.
Selon Google, cet outil qui est basé sur de nouveaux algorithmes de reconnaissance vocal, permettra à des personnes qui ont des difficultés à utiliser un écran tactile pour diverses raisons, d’accéder aux différentes fonctionnalités en énonçant vocalement un numéro. Un tel service est le fruit de la quasi-totalité des travaux de recherche effectués dans le domaine de la production de la parole qui sont orientés vers une meilleure caractérisation quantitative de son analyse. Et ce, grâce à une représentation du signal vocal par un nombre réduit de paramètres pertinents. D’autres compagnies ont eu d’autres idées pour bien consolider la relation Homme-Machine. Par exemple, Vecna Technologies, fournisseur des solutions IT destinées aux robots, basé Cambridge dans le Massachusetts, a mis sur le marché les premiers robots à roulettes WiFi dirigeables à la voix sur lequel est greffé un système de vidéoconférence. Les exploits des techniques de reconnaissance des locuteurs sont en train de faire disparaitre les mots de passe. Plusieurs banques dans le monde ont obtenu l’aval des autorités pour authentifier les paiements en lignes de leurs clients par leur voix. Sur un plan technique, cette solution est basée sur un système d’authentification par biométrie vocale baptisée « Talk to Pay » qui permet à un processeur de comparer l’empreinte vocale d’un client avec celle stockée dans les serveurs de la banque.
Des applications dans tous les domaines
Aussi, les avancées réalisées dans l’analyse et la modélisation de la parole naturelle ont permis d’atteindre des objectifs inattendus dans le domaine de la recherche par mots clés dans le web et de l’automatisation de la saisie sur clavier. La technique du « Speech to Text » en est un exemple. Il s’agit d’une méthode de transcription automatique des sons au format texte pour permettre un meilleur référencement du contenu. Par exemple, les chinois, au lieu de taper sur leurs smartphones des caractères complexes, ils préfèrent utiliser leurs voix pour envoyer des messages courts ou effectuer des recherches sur le Web. La transcription automatique des sons de la parole a également permis aux touristes du monde entier de s’affranchir des barrières linguistiques pour bien positiver leur séjour. Logbar, une Start up japonaise, a été récompensé du prix de l’innovation au CES de Las Vegas, le salon du high-tech qui s’est tenu en janvier 2016, pour son traducteur de poche baptisé Ili. Grâce à une mini télécommande qui se porte autour du cou, Ili permet de tenir une conversation en plusieurs langues sans aucune connectivité. Il dispose d’une base de données linguistiques de plusieurs langues qui lui sert de support pour effectuer des traductions automatiques. Côté perspectives, l’authentification par signature vocale suscite beaucoup d’intérêts dans le renforcement de la sécurité des réseaux des télécommunications. A l’avenir, les utilisateurs qui accèdent au réseau par un terminal d’acquisition mobile subiront un contrôle d’identité vocal afin de permettre de détecter des usagers non autorisés. Pour cela il est nécessaire d’implanter un système de reconnaissance vocale du locuteur déporté en ligne qui, en temps réel, authentifie la voix de l’utilisateur. Cependant, la disponibilité de cette technologie est conditionnée par la levée d’un obstacle très important. Il s’agit des limites relevées dans les terminaux dans le computing des programmes nécessaires. Ces derniers doivent être stockés dans des serveurs Cloud. C’est pourquoi, les caractéristiques d’un réseau de communication doivent être prises en compte. Par exemple, la voix doit être codée à bas débit pour éviter une consommation trop importante de bande passante, et la transmission des communications doit reposer sur une architecture distribuée. Imaginer alors un monde dans lequel votre médecin peut vous réaliser à distance check-up médical uniquement sur la base de l’analyse de votre conversation téléphonique !