NOTES ET LIENS:
Les Voix de la Tech, épisode 4 !
Au programme :
Une spéciale IA générative audio et vidéo avec de nouvelles Voix de la Tech : Nathalie Birocheau, co-fondatrice et directrice générale d'IRCAM Amplify, start-up créée en 2019, issue de l'IRCAM. IRCAM Amplify vient de lancer l'AI Speech Detector, un outil de détection des faux contenus vidéo grâce à l'IA. Elle nous explique son fonctionnement, sa cible et sa raison d'être.
Fred Rolland, responsable en Europe des activités audio-vidéo pro chez Adobe pour les annonces d'Adobe MAX 2024 à Miami, cette semaine, autour de l'arrivée de l'IA générative dans Premiere Pro, le logiciel de montage vidéo d'Adobe avec plusieurs garde-fous puisque cette IA permet uniquement d'allonger des plans et pas de créer de la vidéo de toutes pièces. Avec lui, nous revenons aussi sur le concept de “Content Credentials", un watermark constitué de métadonnées inviolables, aussi pour la vidéo, créé dans le cadre de l'initiative C2PA lancée avec le New York Times et l'ex-Twitter en 2019.
Antoine Ménager, fondateur et CEO de Lipitt, une startup créée il y a un an, à l'origine d'un service en ligne qui propose le doublage automatique de vidéos, en conservant la voix originale et la tonalité - émotions comprises - du sujet, et en synchronisant le mouvement de la bouche avec les mots traduits. Lipitt vise la traduction en direct : une révolution en puissance pour les chaînes de télévision, les plates-formes de streaming, etc.
Les Voix de la Tech, cette semaine :
➡️ Nathalie Birocheau, co-fondatrice et directrice générale d'IRCAM Amplify.
➡️ Fred Rolland, responsable en Europe des activités audio-vidéo pro chez Adobe.
➡️ Antoine Ménager, fondateur et CEO de Lipitt.
Présentation: Benjamin Vincent et Fabrice Neuman !
Habillage musical par Eddy Gronfier (Twitter / X - Spotify)
Lire la transcription ci-dessous
(Attention, cette transcription est réalisée par une IA et peut contenir de erreurs)
*Générique*
Ici la voix de Benjamin Vincent
Et ici la voix de Fabrice Neman, bonjour à toutes et tous
Oui bienvenue à chacune et à chacun d'entre vous
Vendredi 18 octobre 2024, les Voix de la Tech épisode 4
Moins de 30 minutes vous le savez désormais c'est la promesse
Mais si vous en voulez encore plus, nous avons le plaisir de vous annoncer
La version premium des Voix de la Tech Fabrice
Et oui, le même concept, le même sommaire, les mêmes voix
Mais avec des interviews en version intégrale
Et un prix tout doux, 2,99€ par mois
Avec en plus 3 jours d'essai gratuit
Et c'est uniquement sur Apple Podcast pour l'instant
*Générique*
Cette semaine c'est une spéciale IA générative audio et vidéo que nous vous proposons
Des outils qui rendent souvent service au créatif
Mais qui peuvent aussi être utilisés pour créer ces fameux deepfakes
Qu'on a parfois du mal à différencier des contenus authentiques
Alors comment avoir confiance dans ce qu'on voit ou ce qu'on entend aujourd'hui
C'est la question à laquelle nous allons tenter de répondre
Avec toutes nos Voix de la Tech cette semaine Benjamin
Et oui à suivre dans une dizaine de minutes
La voix de Fred Roland Adobe pour les annonces effectuées à Max 2024 à Miami cette semaine
Vous connaissez, tu connais Fabrice le remplissage génératif dans Photoshop
Celui qui invente des bouts de photos qui n'existent pas
Et bien la fonction arrive en vidéo dans Premiere Pro
Oui c'est incroyable, elle va sûrement changer la vie des cinéastes
Mais IA générative à moins de 20 jours de la présidentielle américaine
C'est forcément aussi un sujet ultra sensible Benjamin
Et on va voir qu'Adobe prend le maximum de précautions autour de son IA baptisé Firefly
Vous allez aussi découvrir la voix d'Antoine Ménager, le créateur de LeapIt
Un service étonnant, pour ne pas dire époustouflant
Qui automatise le doublage des voix en utilisant la voix originale
Et en synchronisant même les mouvements de la bouche
Alors c'est fascinant évidemment
Mais on sait aussi que le monde des doubleurs professionnels est très inquiet
Et pas seulement pour leur métier mais aussi pour la qualité du résultat
On va lui en parler
Et tout de suite Fabrice, notre première voix de la tech cette semaine
C'est celle de Nathalie Birochaud
Bonjour Nathalie Birochaud
Bonjour
Bonjour Fabrice, bonjour Benjamin
Merci d'être une de nos voix de la tech pour notre quatrième numéro
Avec plaisir
Vous êtes la directrice générale cofondatrice d'Ircam Amplify
Une société de commercialisation d'innovation audio créée en 2020
Alors autant le dire tout de suite c'est une société directement issue du célèbre IRCAM
L'Institut de Recherche et Coordination Acoustique Musique
Créé en 70 par le compositeur Pierre Boulez
Alors vous le savez cet épisode est consacré à l'intelligence artificielle générative
Et notamment au moyen de se protéger des deepfakes audio et vidéo
Alors ça tombe bien puisque Ircam Amplify vient d'annoncer un nouvel outil justement de détection de fakes vocaux
Après avoir proposé un outil de détection de fakes musicaux
Et pour illustrer ça on va d'abord écouter un extrait audio et vidéo
C'est un extrait qui a été republié par le célèbre youtubeur MKBHD
Un spécialiste des tests de produits tech qui nous alerte que la voix qu'on va y entendre n'est pas la sienne
Pourtant elle semble bien proche, on écoute
Ok, donc c'est le nouveau carton métal de Dot
J'ai entendu beaucoup de choses de très bonnes
Alors on va juste commencer
Donc le tech dans cela est plutôt légitime
Il utilise la technologie NFC et le style en plastique pour faire la nettoyage plus efficace et plus efficace
Tout ce que vous devez faire c'est appuyer sur le carton de la vente numérique de votre téléphone
Alors c'est juste un extrait
Pour ceux qui n'ont pas vu la vidéo on va juste expliquer qu'on voit à l'image un smartphone
Et puis une main qui présente deux cartes de crédit et qui présente un service de cartes de paiement qu'on peut lier à son smartphone
Alors quand on connaît un peu MKBHD on sait que c'est pas sa voix vraiment, elle ressemble beaucoup
On sait que ce ne sont pas ses mains, parce qu'on voit les mains d'un homme blanc et lui c'est un homme noir
Mais comment fait-on pour s'assurer de ne pas tomber dans le panneau ?
Et c'est là je pense que les outils que vous proposez peuvent rentrer dans le jeu
C'est un très bon exemple, donc là on est sur un usage grand public, réseaux sociaux, transparence par rapport à un consommateur
Effectivement à quel moment on pourrait avoir un indicateur sur un écran ou autre matériel de consommation de contenu
Un indicateur qui dirait "voix fabriquée" ou "attention IA" ce genre de choses
C'est vrai qu'aujourd'hui ça devient possible, il y a des technologies qui sont mises sur le marché
Nous on vient de lancer le détecteur de speech, de voix parlées générés par IA
On a capitalisé sur ce qu'on avait pu faire dans la musique depuis une petite année
Sur la détection de musique générée par IA, on a vraiment eu une très belle réception par le marché
On est fiers même si on est une petite équipe et que c'est pas de la prétention
Mais on a été benchmarké par des grosses sociétés américaines, des majors, par rapport à toutes les solutions
Ils font des benchmarks tout le temps avec la solution qui existe sur le marché
C'est la beauté, la puissance des ingénieurs et des talents techniques français
Aujourd'hui ces algos-là permettent d'aller chercher en profondeur des informations dans les fichiers
Au niveau de la musique ou au niveau de la voix
Pour savoir si elles ont été générées ou non par les moteurs qui occupent aujourd'hui la plupart du marché sur la génération de voix par IA
Ils sont dévoilés les secrets, est-ce que vous pouvez nous donner une idée de comment ça fonctionne ?
Pas du tout !
Non, je rigole
Premièrement, on les connaît, les moteurs qui génèrent sur la musique, sur la voix
90-95% du marché est occupé par une dizaine d'acteurs
Donc déjà on trouve beaucoup d'informations en regardant comment eux-mêmes produisent de l'audio
Et deuxièmement, grâce à l'IRCAM, grâce à ce savoir-faire exceptionnel sur le son
Dans "Songes, mais voix et musique"
Il y a une connaissance très profonde du son et d'analyse de son
Qui permet d'aller chercher ce qu'on appelle des descripteurs, ce qu'on appelle des artefacts dans la musique ou dans la voix
Qui sont des défauts, on va dire, mais qui sont inaudibles à l'oreille humaine
Ou des patterns, des choses qui se répètent
Vous avez quand même remarqué qu'il y a, un peu comme pour l'image, il y a quand même une patte de l'IA
On a un cerveau qui est encore plus puissant que les machines
L'oreille humaine est aussi un outil très puissant
Donc on entend, tout ça mélangé ensemble donne notre algorithme
On sait par exemple, une journaliste américaine qui s'appelle Joan Astern
Qui travaille pour le Washington Post, si je ne m'abuse ou le Washington Post Journal, pardon
A fait la démonstration qu'en utilisant une voix générée par intelligence artificielle
Elle a été capable de se faire passer pour elle
Dans ce cas là, effectivement c'était bien sûr elle
Mais auprès, par exemple, de répondeurs automatiques
Et pour aussi, aller, comment dirais-je, rentrer dans son compte bancaire
Parce que sa banque demandait une signature vocale et la voix générée suffisait
C'est terrible
Vous dites vous même que c'est terrible, alors qu'est-ce qu'on peut faire ?
Est-ce que malgré les outils que vous venez de sortir, on peut rien faire ?
Ces outils là vont détecter ça de manière très puissante
Parce qu'il y a 98,5% de taux de confiance dans ce qu'on détecte
Donc c'est des très très hauts scores
Et puis le modèle s'améliore chaque semaine avec tous les retours qu'on a
Et les datas qu'on peut collecter
Et voilà, on sait que ça va aller vite
Parce que ceux qui ont le business qui permet de générer ces voix là
Ont plutôt intérêt à ne pas être détectés
Si leur enjeu est de disséminer le plus possible ces voix fabriquées
Après, on espère qu'il y a un monde où tout ça pourra vivre ensemble
Ça passera probablement par des réglementations aussi
Et il va y avoir des équipements assez évidents pour les banques notamment
C'est du business modèle d'antivirus
C'est-à-dire qu'on n'est pas loin de ça
Un portail, une protection, un mur
On appelle ça comme on veut, à l'entrée, à la sortie
Pour scanner tout ce qui passe, tout ce qui rentre et tout ce qui sort
Comment ça fonctionne concrètement Nathalie
Quand on veut s'assurer qu'un enregistrement audio est bien authentique ?
Pour ceux qui veulent essayer, très basiquement et gratuitement
ircamamplify.io
On crée un compte gratuit, on crée une nouvelle tâche
Dans la liste de tous les produits qui sont sur notre magasin
On choisit AI Speed Detector, on clique
On drag and drop un fichier audio avec de la voix dedans
On imagine être fabriqué par une IA
Et on a un taux qui sort, un taux de confiance
Sur le fait qu'on pense ou pas que c'est de l'IA
Donc nous on dit pas, c'est pas blanc ou noir
Entre 0 et 100, on donne un indice de confiance
Quand c'est au-dessus de 80% il y a des gros doutes qui commencent à arriver
Quand vous êtes à 95, 98%
C'est sûr et certain que ça a été généré par un moteur qui est aujourd'hui sur le marché
On rentre dans un monde où ça va aller très vite
D'avoir des coups de fil de nos plus proches, maris, parents
Qui nous appellent en détresse parce qu'ils ont un gros problème
Et il faut leur envoyer de l'argent évidemment
Oui, oui, je pense des choses critiques derrière
Donc ça va aller très vite
Et ça semble évident, on est un peu dans Blade Runner
Mais pardon, c'est quand même ça
Vous parlez de volume, est-ce que la longueur influe beaucoup sur la capacité d'analyse de votre outil ?
Est-ce que l'extrait de 15 secondes qu'on a fait entendre, est-ce qu'il est suffisant ?
C'est une très bonne question
Et c'est également dans les prochaines versions
Aujourd'hui on est sur une version en ligne qui fonctionne très très bien à partir de 30 secondes
Et donc l'enjeu dans les procédés d'apprentissage c'est effectivement de diminuer cette durée-là
C'est entre 20 et 30 je crois la durée minimum aujourd'hui
Si on met aujourd'hui 2 secondes, c'est trop faible pour screener
Nathalie Birochaud, directrice générale et cofondatrice, d'ircam Amplified
Merci beaucoup d'avoir été l'une de nos voix de la tech cette semaine et à bientôt
Avec plaisir monsieur
Merci beaucoup
Salut Frédéric
Salut Benjamin
Salut Frédéric
Salut Fabrice
Fred Roland pour les intimes responsables en Europe des activités audio-vidéo pro chez Adobe
Fred, on a le plaisir de t'accueillir dans les voix de la tech cette semaine
Parce que c'est la semaine d'Adobe Max, la conférence d'Adobe dédiée à la créativité
C'était en début de semaine à Miami avec 2 keynote, une lundi et une mardi
Et beaucoup d'annonces évidemment autour de l'IA générative
Une IA qui ne concerne pas seulement les images fixes
Qu'est-ce qu'il y a de nouveau dans les 2 domaines qui te concernent directement ?
Une grosse activité qui s'articule beaucoup autour de la vidéo
On voit que la vidéo est un médium qui intéresse, qui grossit
Et la demande en termes de fonctionnalité s'incrémente au fil du temps
La grosse annonce c'est la mise à disposition des modèles Firefly pour la vidéo
Ça c'est sous différentes formes, à la fois dans les interfaces web et dans Premiere Pro
C'est ce qui est le côté singulier de l'approche d'Adobe
C'est d'avoir à la fois des modèles qu'on espère qu'ils puissent servir à nos utilisateurs
Mais aussi la capacité à les intégrer dans les outils qu'ils utilisent tous les jours pour en faire des vrais usages
Dans Premiere Pro, votre logiciel de montage vidéo, on va pouvoir utiliser l'IA générative
D'une manière un peu particulière, on ne pourra pas créer de la vidéo de toute pièce
Mais on pourra gratter quelques secondes d'image quand les plans sont trop courts
Est-ce que tu peux nous expliquer l'intérêt, dans quel type de situation ça peut servir ?
Tout simplement sur des montages sur la musique, souvent on va monter de l'image sur un rythme
Et on va se rendre compte qu'un plan est trop court de quelques secondes par rapport au rythme
Et donc là la question, les monteurs souvent vont aller chercher un plan d'illustration
Ils n'ont pas le plan qui convient, donc là on voit dans l'exemple qu'on a montré à Max
On a fait le fait de pouvoir rallonger son plan incluant l'audio si besoin
Donc dans ce cas là, si on a une musique derrière, on n'a pas besoin d'audio
Mais on va pouvoir rallonger son plan et Firefly va être instantié pour pouvoir recréer ces quelques images
Dans la résolution de la séquence de l'utilisateur
Donc ça c'est des cas d'usage très intéressants
L'exemple à Max, c'était deux skaters qui sont filmés de profil
C'est un travelling avec des skaters qui font du skate un peu urbain, qui passent au-dessus d'obstacles
Et effectivement il manque deux secondes de vidéo pour aller jusqu'au plan suivant
Et donc simplement en tirant le bord du clip dans la timeline de première
En fait en quelques instants, l'IA Génératif va prolonger le parcours des skaters
Absolument
Une image qui n'a pas été filmée, c'est vraiment de la création pour le coup
Exactement, recréer du pixel sur les pixels existants
Ou alors sur la fin d'un plan, comme souvent, vous tournez avec une caméra
Et puis vous sortez du CAD parce que vous avez appuyé sur le bouton stop trop tard
Donc ça c'est de la sortie de CAD que vous voulez retirer pour avoir un fondu
Pour pouvoir assurer une transition vers le plan suivant
Donc les cas d'usage vont être variés, on est vraiment au début de l'intégration des modèles d'IA Génératif
Firefly pour la vidéo dans ce cas là
Mais effectivement on a déjà un retour qui est très favorable
Et effectivement la question c'est de se dire, on ne génère pas de nouvelles images
On ne va pas créer quelque chose de nouveau, on ne va pas en se rendre
Donc là on est vraiment sur du calcul pur sur l'image que vous fournissez à Firefly
En quoi vous vous différenciez de Meta et de ceux qui ont sorti leur solution un tout petit peu avant vous ?
Effectivement il y a énormément de modèles qui ont été créés sur la vidéo
Et effectivement les choses qui sont incroyables, il n'y a rien à dire
Et donc effectivement nous on est sur ce positionnement là d'arriver à cette richesse en termes de modèles et de qualité
Mais avec un point qui est unique sur Firefly, c'est le fait que tous les modèles sont basés sur des contenus dont on a les droits
Ce qui nous permet de garantir à nos clients l'usage commercial libre
Donc c'est un point essentiel parce que dans cette course à l'armement, dans cette innovation technologique qui dépasse l'entendement
La question revient au fondamentaux, à la notion éthique, à la notion de la capacité à pouvoir utiliser ces modèles librement
Alors donc on a bien compris que Adobe utilisait des contenus dont il avait le droit d'utilisation
Pour que justement on puisse nous-mêmes utiliser et l'utiliser
Il y a aussi autre chose qu'Adobe met en avant, c'est ce qu'on appelle le "content credential", une sorte de label numérique
Pour permettre justement de reconnaître un contenu et s'assurer de sa propriété
Est-ce que ça s'applique déjà à ce nouvel outil de création de vidéos ?
Tout à fait, en fait effectivement une grosse partie de l'innovation
C'est aussi la manière dont on protège nos utilisateurs grâce à cette initiative qu'Adobe a créée en 2019 avec le New York Times et Ex Twitter
Qui avait pour but de lutter contre les fake news, c'est-à-dire de pouvoir vérifier la provenance d'un contenu
Lorsqu'un consommateur puisse voir si l'image a été modifiée, on se souvient tous de l'image du pape etc.
Donc on a été à l'initiative de ce projet-là, aujourd'hui c'est plus de 3 700 membres qui nous ont rejoints pour pouvoir donner ce label nutritif qu'on appelle les "content credentials"
De manière à ce que le consommateur puisse connaître la provenance et connaître en toute transparence si le contenu a été généré par l'homme ou par l'IA génératif
C'est des informations qui sont dans l'image en crypté, c'est-à-dire que si vous faites même une capture avec votre téléphone, vous allez avoir cette information qui reste persistante
Il ne t'a pas échappé Fred qu'on est à moins d'un mois des élections présidentielles américaines
Quel rôle joue le contexte justement dans la sortie de ces outils pour vous et dans votre réflexion ?
Déjà le positionnement de Firefly c'est vraiment quelque chose qu'on met à la disposition des créateurs pour pouvoir augmenter leur créativité
On a montré durant MAX plusieurs cas d'usage et c'est ce qui stimule Adobe depuis sa création
D'accompagner les créateurs à trouver plus d'inspiration pour pouvoir créer des choses encore plus folles
Par rapport à ça, quand on présente ce genre de technologie, on ne peut pas la découpler de la notion de content credentials, de protection des droits d'auteur, de protection des contenus
Donc finalement sur ce sujet là, Adobe a une position très précise
Maintenant effectivement il y a énormément de technologies comme tu l'évoquais qui sont sur le marché
Aujourd'hui il y a un peu le buzz qui fait que les gens font des choses sans trop peut-être savoir ce qu'ils font avec
On espère qu'effectivement dans un monde meilleur où effectivement tous les players des outils, des plateformes de contenu comme CNN
Si on prend l'exemple des informations américaines, proposons aux consommateurs la capacité à lire ces content credentials
Et faire en sorte que quand on regarde un contenu sur CNN, on est sûr que les contenus soient libres d'usage etc.
Donc c'est toute une influence sur tout l'écosystème qu'on a en train de mener
Effectivement ça ne va pas se passer du jour au lendemain, mais je pense que ça va ramener aux créateurs la capacité à valider que l'information qu'ils véhiculent, que le contenu qu'ils créent
soit tout simplement transparence puis s'être validée par leur audience
Là où aujourd'hui on regarde tout et n'importe quoi sur les réseaux sociaux, ça va revenir à la question de comment faire confiance à ces outils là
Je crois que cette année on est plus de 2 milliards d'êtres humains sur Terre à voter
Donc on sait tous qu'il y a une influence majeure liée aux réseaux sociaux, liée à des contenus qui pourraient être faux
Et donc ça ne va peut-être pas se faire sur ces élections là, mais on espère qu'il y a une semaine à venir, soit doté de ce genre de technologies
Bon c'est important
Merci beaucoup Fred Roland d'avoir été notre invité cette semaine dans les Voix de la Tech et à bientôt
Merci beaucoup, à bientôt
[Musique]
Bonjour Antoine Ménager
Bonjour
Bonjour Antoine, entrepreneur, ingénieur, 26 ans, créateur de l'ePIT, cette application de doublage automatique
Peut-être que tu peux la définir, la présenter toi-même parce qu'elle est tellement impressionnante que je ne sais pas par quel bout la prendre
C'est en effet assez complexe en fait, mais on peut résumer ça en une phrase très simple
On prend une vidéo ou un audio dans n'importe quelle langue et on le transforme dans n'importe quelle autre langue
Pour pouvoir l'avoir accessible à d'autres personnes, à de nouvelles audiences et rendre enfin son audience réellement internationale et pas avec du doublage approximatif
Et donc ce qu'on fait, on fait du voice cloning, ça veut dire que c'est les mêmes voix mais dans des nouvelles langues
Et du lip-sync, c'est-à-dire de la synchronisation labiale, c'est-à-dire que les lèvres vont aussi bouger dans la nouvelle langue
Pour être sûr que ce soit complètement transparent pour le nouvel utilisateur
Antoine, le plus simple c'est peut-être qu'on regarde un exemple, on va regarder Zendaya dans plusieurs langues
Et c'est une des vidéos que tu avais posté à l'époque pour faire connaître l'ePIT
En plein de manières, à cause du scope du film, je pense que Denis dès le début a dit que c'était quelque chose qu'il voulait vraiment
Vraiment, vraiment, il fallait vraiment trouver le temps. Je sais que c'est un mouvement très grand, mais je veux vraiment trouver le temps
Je sais que c'est un mouvement très grand, mais je veux vraiment trouver le temps
C'est un mouvement très grand, mais je veux vraiment trouver le temps
Alors moi j'aime bien dire, les Etats-Unis c'est compliqué d'aller les chercher parce que malheureusement ils ont leur SEO à eux
Et donc ils poussent leur solution entre eux, mais en tout cas sur les autres marchés, on a eu beaucoup de...
En fait on a eu même des serveurs qui ont crashé suite à cette vidéo, qui a fait beaucoup beaucoup beaucoup parler
Donc on était très content à l'époque parce que ça a permis aussi de lancer un peu toute la dynamique autour de l'ePIT
Et même de trouver des beaux talons qui se mettaient à rejoindre l'aventure
Mais oui, on est très content, on va dire, de la visibilité que celle-là a eu
Puis il y en a plein d'autres, je vous invite à aller regarder le reste soit sur notre site, soit sur notre YouTube ou soit sur mon LinkedIn directement
C'est très impressionnant à voir, forcément tout de suite il y a un effet "Waouh"
Alors on se souvient de l'arrivée de HeyGen, est-ce que ton idée avait démarré avant ça ?
Et tu t'es retrouvé à travailler sur un projet on va dire un peu comparable
Ou est-ce que c'est HeyGen qui t'a donné l'impulsion ?
Non, je pense que si c'était HEyGen qui nous avait donné l'impulsion, je pense que déjà 1) on aurait jamais pu lever des fonds
Et 2) on aurait abandonné franchement honnêtement avant même de commencer
Non, on a lancé l'ePIT il y a un an et demi, HeyGen s'est sorti il y a un an à peu près
Donc on avait entre 3 et 6 mois de travail déjà avant pour pouvoir faire des algorithmes "Made in France" sur les mêmes sujets
C'est à dire du sujet de "Speech to text, text to speech, speech to speech" et "Lip-sync" donc synchronisation labiale
C'est plein de jargons qui sont un peu complexes mais qui permettent de comprendre comment notre techno fonctionne
Et c'est hyper important, nous on travaille surtout avec des grands comptes qui ont des besoins de sécurité
Parce que c'est super les solutions américaines mais c'est "Basic, all the way"
Et au "all the way" ils ont à peu près rien à faire de vos données
Justement les vendre en direct même à des prix assez délirants
Et sur la vidéo en particulier et les attributs de la personnalité, c'est à dire la voix et l'aspect facial de n'importe qui
Puisque avant on parlait de droit à l'image, c'est en train de pivoter vers le droit à la personnalité, très important
Et donc en fait dans cette transition là, c'est important de faire en sorte que vos données partent pas n'importe où
Et que surtout les entraînements des algorithmes ne soient pas entraînés sur votre tête
C'est malheureusement ce que font tous les agents et compagnies qui en fait font un énorme stock de tête
Et globalement ils vont vous appliquer la tête de quelqu'un d'autre qui vous ressemble le plus
Et bon, nous on trouve pas ça très éthique et c'est pas les algorithmes qu'on a décidé de faire
Mais c'est un parti pré-américain comme d'habitude
Alors c'est intéressant de pivoter tout de suite vers les besoins des business et des entreprises
Parce que pour faire, je vais me permettre un franglisme puisqu'on est avec quelqu'un qui parle toutes les langues
Et parler de l'éléphant dans la pièce, c'est à dire naturellement le monde du cinéma
Et du doublage du cinéma, il y a une industrie du doublage et du sous-titrage en France qui est très vivace
Qui est, si je me souviens bien, une des dernières qui reste parce que la France a vraiment un savoir-faire dans ce sujet
Et les doubleurs, les sous-titreurs sont plutôt inquiets des technologies comme celles que propose Lipit
Pas seulement de Lipitt, mais des relations avec le monde du cinéma
Belle relation, relation sur la durée évidemment
Puisque faut être aussi conscient que à date, l'IA n'est pas capable encore de rivaliser avec un bon comédien de doublage
Alors je me permets de dire bon parce que malheureusement il y en a d'autres qui vont être remplacés plus vite que certains
Parce que la qualité n'est pas forcément toujours au rendez-vous
Et c'est un marché où il y a encore moins d'acteurs que de besoins
Donc en fait c'est un marché où les prix s'envolent assez fou et c'est un marché qui est capté par une vingtaine de personnes en France
C'est la réalité de ce marché-là
Nous on a échangé avec du coup …………
Qui sont deux associations européennes de défense un peu des droits des doubleurs
Enfin des comédiens de doublage, pardon, ils n'aiment pas dire doubleurs
On a échangé avec eux et en fait c'est assez compliqué de se positionner et même de créer de synergie en tout cas avec ces métiers
Qui vont peut-être disparaître mais au moins être modifiés
Pour une raison toute simple c'est qu'ils ont peur de l'IA en tant que technologie
Et même pas en tant qu'applicatif à leur métier
C'est des gens qui se considèrent comme des artistes
Donc c'est super, le seul problème c'est que du coup la technologie vient en quelque sorte casser l'humain
Que eux défendent depuis des années
Et donc c'est très compliqué de discuter avec eux, on a essayé, on continue de le faire
Parce qu'on pense que c'est des liens qu'il faut garder
Et de toute façon nous, pour les émotions de l'IA, on est obligé de travailler avec des gens qui connaissent
Et font en sorte que les émotions soient conservées sur ce type de contenu, type cinéma, série, voilà
Alors où est-ce que vous en êtes aujourd'hui Antoine avec l'IPIT et puis on sait que vous travaillez notamment sur la traduction en temps réel
Où est-ce que vous en êtes ?
Nous on a des briques technologiques qu'on est obligé de faire évoluer, c'est notre boulot
Et donc dans ce cadre là, on a commencé par des briques technologiques de traduction différée
Donc comme vous le citiez, c'est à dire voice cloning, lip sync, etc
Donc on dépose une vidéo, on vérifie la traduction, on peut, et ensuite on génère la vidéo finale
Mais en fait ça maintenant ça est accessible à tous sur Lipitt
Et ça coûte combien de faire ?
C'est entre 70 centimes et 1,5 euro par minute
Et si on a une minute à faire dans 15 langues, c'est 15 minutes ?
Exactement, et donc là c'est où on en est, et où on va c'est la traduction live
Donc en fait on est en train de faire passer nous depuis le début, c'est notre but
C'est vraiment des problématiques aussi de se dire comment est-ce que je peux vérifier que la traduction est bonne, etc
Puisque je ne parle pas les langues dans lesquelles j'exporte mon contenu
Et donc pour ça, nous on est certain que demain ce sera les broadcasters
C'est à dire les diffuseurs, donc ça peut être des plateformes d'OTT, ça peut être la télévision
Ça peut être Twitch, ça peut être Youtube, ça peut être LinkedIn
Sur le streaming LinkedIn par exemple, etc
Qui vont proposer directement à l'utilisateur le contenu traduit
Et pour pouvoir proposer ça à ces broadcasters là, il faut que tout soit en live
Par exemple, est-ce que TF1, Journal de 20h, est-ce qu'on peut imaginer
Que tout le Journal de 20h soit disponible dans la langue qu'on veut
Avec Gilles Boulot qui parle chinois et la météo en coréen
C'est exactement ça, et du coup pour répondre à ta question
Oui, on travaille déjà avec France Télé, BFM, Paramount, Al Jazeera
Pour justement avoir accessible les contenus télévisuels en multilangues
A date, on est à 91% d'accuracy et le but de fin d'année c'est 95%
Sur les 5 langues majoritaires live, à savoir anglais, français, espagnol, arabe et mandarin
Et en fait c'est là la place de startups françaises comme nous
C'est de se dire, d'accord potentiellement demain c'est vrai
On sera racheté par des gens américains parce qu'on sera meilleur en précision
Mais la réalité c'est qu'on a d'abord un énorme marché à récupérer
Qui est le marché des gens qui ne veulent pas dépendre de ces gens américains
Et il y en a de plus en plus
Mais votre but c'est d'être racheté par un géant américain ?
Là on se donne 24 mois pour atteindre une précision de 99% sur l'interprétation
Donc j'ai envie de dire, à voir si les autres arrivent à faire pareil en 24 mois
Bravo en tout cas et merci d'avoir été une de nos voix de la tech cette semaine Antoine
Merci Fabrice
Plein de succès à l'EPIT et à bientôt dans les voix de la tech
Les voix de la tech épisode 4 c'est fini
Merci à nos voix de la semaine Nathalie Birochaud, d'ircam Amplify
Fred Roland, Adobe et Antoine Ménager, Lipitt
Sans oublier la fausse voix de l'influenceur tech américain MKBHD
On vous donne rendez-vous dès vendredi prochain le 25 octobre pour le retour des voix de la tech
D'ici là suivez les voix de la tech sur X, LinkedIn, Facebook, Instagram et Youtube
Et aussi sur le site lesvoixdelatech.com où vous trouvez tous les liens pour vous abonner au podcast
Sur Apple Podcasts les avis qui donnent envie et les notes 5 étoiles n'attendent que vous
afin que vous soyez encore plus nombreux à nous écouter
Et si 30 minutes c'est trop court on vous rappelle que la version premium intégrale est désormais disponible sur Apple Podcasts
Pour le prix incroyable de 2,99€ par mois
Alors abonnez-vous
Abonnez-vous, salut à toutes et tous
Ciao à touti et à vendredi prochain
[Musique]