image post
Tech · innovation

Kyutai dévoile Moshi, l'assistant vocal IA dernière génération

Kyutai, soutenu par des investisseurs de renom, dévoile Moshi, un assistant vocal intelligent et polyvalent propulsé par une IA générative, promettant une interaction naturelle et une faible latence.

Kyutai, le laboratoire de recherche en intelligence artificielle financé par Xavier Niel, Rodolphe Saadé et Éric Schmidt, a récemment présenté Moshi, son premier assistant vocal dopé à l'IA générative. Conçu entièrement en France, Moshi se distingue par sa capacité à offrir une interaction en temps réel avec une latence minimale, une compréhension des émotions et du ton de l'interlocuteur, ainsi qu'une capacité à adapter son propre ton.

Yesterday we introduced Moshi, the lowest latency conversational AI ever released. Moshi can perform small talk, explain various concepts, engage in roleplay in many emotions and speaking styles. Talk to Moshi here https://t.co/a4EbAQiih7 and learn more about the method below 🧵. pic.twitter.com/NkJRybTRLQ

— kyutai (@kyutai_labs) July 4, 2024

Avec une enveloppe de 300 millions d'euros et une équipe de chercheurs issus des meilleurs laboratoires en IA du monde, Kyutai a pour objectif de développer des technologies open source et de faire avancer l'écosystème de l'IA.

Les performances remarquées de Moshi

Moshi se démarque par son approche unique, combinant les différentes étapes du traitement de la parole en un seul réseau de neurones. Le modèle de langage audio, nommé Helium, a été entraîné sur des données textuelles et audio pour saisir les liens entre ces deux modalités. Ainsi, Moshi peut tenir une conversation grâce à un fine-tuning réalisé sur des dialogues synthétiques et est capable de supporter plus de 70 émotions ou styles de parole différents. Kyutai a également développé Mimi, un codec audio propre, permettant une compression efficace des fichiers audio.

Le laboratoire prévoit de publier un article détaillant les aspects techniques de Moshi, ainsi que les modèles et le code source associés sous une licence open source. L'objectif est de permettre à la communauté scientifique et aux développeurs de personnaliser et d'améliorer cette technologie. Les cas d'usage envisagés sont multiples, notamment dans le domaine de l'accessibilité et de l'assistance aux personnes en situation de handicap.

Partagez cet article