Voicebox, le studio d’IA révolutionnaire développé par Meta, promet de transformer le texte en audio avec une précision et une qualité exceptionnelles. Cette innovation n’est pas sans rappeler l’initiative de TikTok, le populaire réseau social sur smartphone, qui a également lancé un outil similaire.
Voicebox : Mark Zuckerberg lance un nouveau studio d’IA
Meta présente Voicebox, une percée significative dans le domaine de la synthèse vocale générative. S’inspirant de ChatGPT et Midjourney, Meta aspire à repousser les limites de la création audio. Ce générateur de clips sonores, semblable à GPT et Dall-E, produit des extraits audio captivants. Avec une structure de flux correspondante non autodéterminée, Voicebox intègre le contexte acoustique et linguistique pour générer une verbalisation cohérente. En s’appuyant sur plus de 50 000 heures de données audio non triées, Meta a utilisé des enregistrements vocaux et des transcriptions de livres audio du domaine public.
Meta révolutionne la conversion de texte en contenu sonore
Le studio de Meta révolutionne la conversion du texte en audio grâce à sa fonctionnalité de synthèse vocale, communément appelée « text-to-speech ». Cette technologie permet de transformer un texte écrit en une narration audio réaliste grâce à une voix de synthèse. L’innovation ne s’arrête pas là, car Meta offre également la possibilité d’utiliser différentes langues dans un texte comprenant plusieurs langues étrangères. Avec un choix varié de voix, les utilisateurs peuvent profiter de six langues disponibles : l’anglais, le français, l’allemand, l’espagnol, le polonais et le portugais. Ainsi, la voix de synthèse peut prononcer le texte dans la langue appropriée. Ce qui est encore plus impressionnant, c’est que Voicebox est capable de reproduire le style audio à partir d’un court extrait de seulement deux secondes. Cette capacité lui permet de générer d’autres contenus audio qui reflètent le langage utilisé dans la vie quotidienne, offrant ainsi une expérience d’écoute plus naturelle et agréable à l’oreille.
Supprimez les imperfections et personnalisez vos contenus audio
Le studio va au-delà de la simple conversion texte-audio en offrant aussi des fonctionnalités d’édition avancées. Les utilisateurs ont désormais la possibilité de modifier un extrait audio, leur permettant ainsi de supprimer des sons indésirables ou toute autre partie du contenu. Cette fonctionnalité permet d’obtenir un résultat parfait sans nécessiter de nouveaux enregistrements. Meta, le géant du réseau social sur smartphone a révélé que Voicebox a été développé en utilisant plus de 50 000 heures de contenu vocal enregistré, ainsi que des transcriptions de livres audio provenant de sources publiques couvrant plusieurs langues telles que le français, l’anglais, l’espagnol, l’allemand, le portugais et le polonais. Voicebox est entraîné à prédire un segment de parole en se basant sur le contexte environnant et la transcription du segment.
TikTok, pionnier des voix de synthèse sur smartphone, inspire l’engouement pour cette technologie
L’engouement pour les voix de synthèse n’est pas nouveau, et TikTok a déjà suscité l’intérêt avec son outil de « text-to-speech » dès son lancement en 2020. Le réseau social chinois a même permis l’utilisation des voix de personnages emblématiques de Disney tels que Rocket Raccoon des « Gardiens de la Galaxie » ou C-3PO de « Star Wars », ainsi que Stitch de « Lilo et Stitch » pour la lecture audio des textes. L’utilisation de voix de synthèse, plus engageante et inclusive, continue de séduire les utilisateurs et les grandes plateformes sociales. Pour Meta, cette technologie pourrait faciliter l’édition audio pour les créateurs, permettre aux personnes malvoyantes d’entendre les messages écrits avec leur propre voix et faciliter la communication dans différentes langues. Un moyen de renforcer les liens et d’attirer de nouveaux utilisateurs.
Avec ETX/DailyUp