Le Voice Lab s’attaque au monopole étasunien dans le marché de la reconnaissance vocale
Depuis le début de la crise sanitaire, la voix, portée par l’explosion des podcasts, prend sa revanche sur les usages technologiques qui privilégiaient l’écrit ou la vidéo. Le marché de la reconnaissance vocale n’est pas en reste, mais la souveraineté de l’Europe sur la question, et sa capacité à résister aux géants étasuniens, dépendra forcement d’une meilleure solidarité entre ses acteurs. Le Voice Lab a besoin de vous.
CLIQUER SUR PLAY POUR ECOUTER LA VERSION AUDIO :
En octobre 2011, à l’occasion d’une énième keynote organisée par ses soins, Apple dévoilait sa cinquième génération de smartphone, l’Iphone 4s, à une clientèle de moins en moins investie. À cette époque, hormis les plus mordus de la pomme, toujours prêts à cracher leurs billets pour n’importe laquelle de ses « nouveautés », le grand public commençait sérieusement à douter de la capacité de l’entreprise à innover et à se renouveler. Il faut reconnaitre qu’entre les sorties annuelles de plus en plus aseptisées, les fonctionnalités gadget vendues à chaque fois comme des révolutions -du Steve Jobs dans le texte- et l’émergence d’une réelle concurrence portée par Google ou Samsung, l’époque des chèques en blanc semblait révolue. L’émerveillement des premières années avait laissé place à un parterre de mines dubitatives dès que Steve Jobs apparaissait sur une scène en col roulé.
Mais surprise, en à peine quatre petits jours de commercialisation, l’Iphone 4s va exploser tous les records de vente avec pas moins de quatre millions d’unités vendues. Un succès qui tient du miracle, tant les réactions avaient été mitigées lors de la présentation du modèle, qui sera vite mis sur le compte d’un hommage à Steve Jobs. Si l’annonce de son décès quelques jours auparavant n’aura certainement pas manqué de mettre la lumière sur ce lancement, l’énorme succes story du 4s tient également d’une grande spécificité technique dont ses prédécesseurs étaient dépourvus. Vous l’aurez peut-être deviné : cette génération de smartphone était la première à bénéficier de l’assistant vocal Siri. D’abord développé pour un usage militaire, Siri va ensuite être commercialisé dans l’App Store comme n’importe quelle application, avant que Steve Jobs, conscient du potentiel du projet, ne la rachète pour 200 millions de dollars. Une fonctionnalité totalement intégrée -ou négligée- de nos usages numériques, depuis reproduite par toute la concurrence, mais qui va, à l’époque, bouleverser, voir même lancer, le marché de la reconnaissance vocale.
« Ceci est -réellement- une révolution »
Aujourd’hui, ces premiers usages des technologies vocales, perçues en leur temps comme des vulgaires expérimentations par une clientèle sceptique, nous paraissent bien loin. Selon une enquête conduite par le cabinet de conseil P&S Intelligence et publiée la semaine dernière, le marché de l’intelligence artificielle conversationnelle -qui comprend les applications d’assistants virtuels intelligents, de réponse vocale interactive intelligente et de chatbots devrait atteindre 15 milliards de dollars en 2024, avec un taux de croissance effectif de 30,2% entre 2019-2024. Pour les auteurs de l’étude, le marché se développe en raison de la demande croissante de services de support client basés sur l’IA, du retour sur investissement positif pour les entreprises déployant des solutions d’IA conversationnelles et du nombre croissant de fournisseurs de solutions sur le marché. La catégorie des assistants personnels devrait connaitre un taux de croissance de 31% au cours de la période de prévision. Signe de l’attraction importante, de la part des investisseurs cette fois-ci, que connait le marché, la start-up américaine Deepgram annonçait le 5 février dernier avoir bouclé une levée de fond record de 25 millions de dollars pour peaufiner sa plateforme de créations de modèles de reconnaissances vocale personnalisés à destination des entreprises. Certes, la jeune start up lancé en 2015 n’en est qu’à ses premiers pas, mais ses origines américaines symbolisent à merveille l’omniprésence du nouveau monde dans les rouages de cette industrie.
Pour permettre l’émergence d’offres alternatives aux géants américains -et chinois- en matière d’applications vocales, une trentaine de startups et de laboratoires de recherche français et européens se sont réunies à partir de 2019 pour créer Le Voice Lab. L’association a vocation à devenir une place de marché où un industriel pourra monter son assistant vocal en français. Parmi les participants figurent Qwant -le moteur de recherche francophone-, Snips -les assistants vocaux locaux-, Kwalys -les robots conversationnels et les assistants virtuels-, ou encore CandyVoice -le traitement numérique de la voix-. À l’époque, YannLechelle, le CEO de Snips, expliquait que cette initiative découlait du constat que « nous avons un fort besoin de données pour créer des modèles acoustiques et qu’aujourd’hui seuls les grands acteurs de la tech sont capables de créer ou d’acheter ces données (…).Ce n’est qu’en nous rassemblant que nous serons à même d’être concurrentiels et d’offrir de vraies solutions ». Le dirigeant poursuivait en affirmant que « l’important est de déconstruire le mythe selon lequel créer des assistants vocaux nécessite de faire de l’écoute en permanence. Il existe aujourd’hui suffisamment de données disponibles pour permettre de développer des modèles acoustiques performants ».
Ouvrir une nouvelle voie
Il faut croire que Yann Lechelle a quelque peu surévalué les banques de données du Voice Lab puisque l’association a annoncé le 21 février dernier le lancement de sa première campagne en ligne de « collecte de données audio », avec pour objectif d’enregistrer 2 000 heures de voix française. Cette initiative invite les internautes francophones à faire don de leurs données vocales avec l’objectif affiché de développer différents services de transcription automatique de la parole offrant ainsi une alternative aux Siri, Alexa et autre Google Home. La condition sine qua non pour retrouver une certaine souveraineté numérique à l’échelle nationale et européenne, à l’image des initiatives citoyennes qui se multiplient pour combattre surveillance biométrique de masse orchestrée par les entreprises américaines, comme révélé le 18 janvier dernier dans nos colonnes.
« Nous avons commencé à travailler entre jeunes pousses et laboratoires de recherche pour essayer de créer un écosystème francophone de la donnée vocale et on espère que ce projet deviendra européen pour répondre aux enjeux stratégiques des grands groupes, mais aussi des services publics dans ce domaine. L’idée de cette collecte est que l’internaute va pouvoir participer à nos recherches en se connectant à des services en ligne qu’il utilise déjà, en passant, par exemple, par son assistant vocal », explique Karel Bourgois, président du Voice Lab. Selon lui l’association a besoin de « données de voix de femmes, d’hommes, d’enfants, de personnes âgées, de recueillir toute la diversité et la richesse de la langue française. Mais aussi toute la diversité de son vocabulaire, qu’il soit professionnel, littéraire, technique ou des extraits de la vie quotidienne avec des gens qui parlent entre eux. L’objectif est de comprendre la langue française dans sa généralité pour ensuite avoir suffisamment de données spécialisées afin de répondre aux besoins de nouveaux services en ligne que l’on pourrait développer pour tous les usages ».
Le Voice Lab précise que ces données seront hébergées dans le strict respect de la vie privée et du droit relatif à la protection des données personnelles et que l’objectif est avant tout de garantir que les données des utilisateurs seront utilisées en respectant les valeurs de l’IA éthique by design, telles que le respect, la transparence, la loyauté, la sécurité, l’équité et la maîtrise. Aux ingénieurs de ne pas trahir à l’avenir leurs idéaux. Le retour de bâton serait impitoyable.
Les Newsletters du groupe INfluencia : La quotidienne influencia — minted — the good. Recevez une dose d'innovations Pub, Media, Marketing, AdTech... et de GOOD