Capitalisation boursière: $2.9705T 0.430%
Volume(24h): $76.4161B -12.010%
  • Capitalisation boursière: $2.9705T 0.430%
  • Volume(24h): $76.4161B -12.010%
  • Indice de peur et de cupidité:
  • Capitalisation boursière: $2.9705T 0.430%
Cryptos
Les sujets
Cryptospedia
Nouvelles
Cryptosopique
Vidéos
Top nouvelles
Cryptos
Les sujets
Cryptospedia
Nouvelles
Cryptosopique
Vidéos
bitcoin
bitcoin

$94730.894315 USD

0.06%

ethereum
ethereum

$1803.817092 USD

0.22%

tether
tether

$1.000728 USD

0.04%

xrp
xrp

$2.242803 USD

-1.90%

bnb
bnb

$602.748908 USD

-0.53%

solana
solana

$147.616062 USD

0.03%

usd-coin
usd-coin

$1.000264 USD

0.02%

dogecoin
dogecoin

$0.175709 USD

-1.56%

cardano
cardano

$0.700941 USD

-0.38%

tron
tron

$0.243817 USD

-1.38%

sui
sui

$3.546432 USD

0.04%

chainlink
chainlink

$14.716170 USD

-1.94%

avalanche
avalanche

$21.873983 USD

0.35%

stellar
stellar

$0.280000 USD

-0.50%

unus-sed-leo
unus-sed-leo

$9.011306 USD

0.11%

Articles d’actualité sur les crypto-monnaies

Échelle de transcription audio avec Google Vertex AI et Gemini Modèles

Apr 30, 2025 at 04:13 am

Lorsqu'il s'agit de transcrire avec précision de longues interviews audio, encore plus lorsque la langue parlée n'est pas l'anglais, les choses deviennent beaucoup plus compliquées.

This article is co-authored by Ugo Pradère and David Haüet

Cet article est co-écrit par Ugo Pradrère et David Haüet

How hard can it be to transcribe an interview ? You feed the audio to an AI model, wait a few minutes, and boom: perfect transcript, right ? Well… not quite.

À quel point peut-il être difficile de transcrire une interview? Vous alimentez l'audio à un modèle d'IA, attendez quelques minutes et Boom: Transcription parfaite, non? Eh bien… pas tout à fait.

When it comes to accurately transcribe long audio interviews, even more when the spoken language is not English, things get a lot more complicated. You need high quality transcription with reliable speaker identification, precise timestamps, and all that at an affordable price. Not so simple after all.

Lorsqu'il s'agit de transcrire avec précision de longues interviews audio, encore plus lorsque la langue parlée n'est pas l'anglais, les choses deviennent beaucoup plus compliquées. Vous avez besoin d'une transcription de haute qualité avec une identification fiable des haut-parleurs, des horodatages précis et tout cela à un prix abordable. Pas si simple après tout.

In this article, we take you behind the scenes of our journey to build a scalable and production-ready transcription pipeline using Google’s Vertex AI and Gemini models. From unexpected model limitations to budget evaluation and timestamp drift disasters, we’ll walk you through the real challenges, and how we solved them.

Dans cet article, nous vous emmenons dans les coulisses de notre voyage pour construire un pipeline de transcription évolutif et prêt pour la production à l'aide de modèles de vertex AI et de gemini de Google. Des limitations de modèle inattendues à l'évaluation budgétaire et aux catastrophes dérivantes de l'horodatage, nous vous guiderons à travers les vrais défis et comment nous les avons résolus.

Whether you are building your own Audio Processing tool or just curious about what happens “under the hood” of a robust transcription system using a multimodal model, you will find practical insights, clever workarounds, and lessons learned that should be worth your time.

Que vous construisiez votre propre outil de traitement audio ou que vous vous sommes simplement curieux de savoir ce qui se passe «sous le capot» d'un système de transcription robuste à l'aide d'un modèle multimodal, vous trouverez des informations pratiques, des solutions de contournement intelligentes et des leçons apprises qui devraient valoir votre temps.

Context of the project and constraints

Contexte du projet et des contraintes

At the beginning of 2025, we started an interview transcription project with a clear goal : to build a system capable of transcribing interviews in French, typically involving a journalist and a guest, but not restricted to this situation, and lasting from a few minutes to over an hour. The final output was expected to be just a raw transcript but had to reflect the natural spoken dialogue written in a “book-like” dialogue, ensuring both a faithful transcription of the original audio content and a good readability.

Au début de 2025, nous avons lancé un projet de transcription des entretiens avec un objectif clair: construire un système capable de transcrire des entretiens en français, impliquant généralement un journaliste et un invité, mais pas limité à cette situation, et durer de quelques minutes à plus d'une heure. La sortie finale devait être juste une transcription brute mais devait refléter le dialogue parlé naturel écrit dans un dialogue «semblable à un livre», assurant à la fois une transcription fidèle du contenu audio original et une bonne lisibilité.

Before diving into development, we conducted a short market review of existing solutions, but the outcomes were never satisfactory : the quality was often disappointing, the pricing definitely too high for an intensive usage, and in most cases, both at once. At that point, we realized a custom pipeline would be necessary.

Avant de plonger dans le développement, nous avons effectué un bref examen du marché des solutions existantes, mais les résultats n'ont jamais été satisfaisants: la qualité était souvent décevante, le prix est définitivement trop élevé pour une utilisation intensive, et dans la plupart des cas, les deux à la fois. À ce stade, nous avons réalisé qu'un pipeline personnalisé serait nécessaire.

Because our organization is engaged in the Google ecosystem, we were required to use Google Vertex AI services. Google Vertex AI offers a variety of Speech-to-Text (S2T) models for audio transcription, including specialized ones such as “Chirp,” “Latestlong,” or “Phone call,” whose names already hint at their intended use cases. However, producing a complete transcription of an interview that combines high accuracy, speaker diarization, and precise timestamping, especially for long recordings, remains a real technical and operational challenge.

Parce que notre organisation est engagée dans l'écosystème Google, nous devions utiliser Google Vertex AI Services. Google Vertex AI propose une variété de modèles de parole à texte (S2T) pour la transcription audio, y compris des modèles spécialisés tels que «Chirp», «DermterLong» ou «Téléphone», dont les noms font déjà allusion à leurs cas d'utilisation prévus. Cependant, la production d'une transcription complète d'une interview qui combine une précision élevée, une diarisation des haut-parleurs et un horodatage précis, en particulier pour les longs enregistrements, reste un véritable défi technique et opérationnel.

First attempts and limitations

Premières tentatives et limitations

We initiated our project by evaluating all those models on our use case. However, after extensive testing, we came quickly to the following conclusion : no Vertex AI service fully meets the complete set of requirements and will allow us to achieve our goal in a simple and effective manner. There was always at least one missing specification, usually on timestamping or diarization.

Nous avons lancé notre projet en évaluant tous ces modèles sur notre cas d'utilisation. Cependant, après des tests approfondis, nous sommes arrivés rapidement à la conclusion suivante: Aucun service Vertex AI ne répond pleinement à l'ensemble complet des exigences et nous permettra d'atteindre notre objectif de manière simple et efficace. Il y avait toujours au moins une spécification manquante, généralement sur l'horodatage ou la diarisation.

The terrible Google documentation, this must be said, cost us a significant amount of time during this preliminary research. This prompted us to ask Google for a meeting with a Google Cloud Machine Learning Specialist to try and find a solution to our problem. After a quick video call, our discussion with the Google rep quickly confirmed our conclusions : what we aimed to achieve was not as simple as it seemed at first. The entire set of requirements could not be fulfilled by a single Google service and a custom implementation of a VertexAI S2T service had to be developed.

La terrible documentation de Google, cela doit être dit, nous a coûté beaucoup de temps au cours de cette recherche préliminaire. Cela nous a incité à demander à Google une réunion avec un spécialiste de Google Cloud Machine Learning pour essayer de trouver une solution à notre problème. Après un appel vidéo rapide, notre discussion avec le représentant Google a rapidement confirmé nos conclusions: ce que nous visions à réaliser n'était pas aussi simple qu'il semblait au début. L'ensemble des exigences n'a pas pu être rempli par un seul service Google et une implémentation personnalisée d'un service Vertexai S2T a dû être développée.

We presented our preliminary work and decided to continue exploring two strategies :

Nous avons présenté notre travail préliminaire et avons décidé de continuer à explorer deux stratégies:

In parallel of these investigations, we also had to consider the financial aspect. The tool would be used for hundreds of hours of transcription per month. Unlike text, which is generally cheap enough not to have to think about it, audio can be quite costly. We therefore included this parameter from the beginning of our exploration to avoid ending up with a solution that worked but was too expensive to be exploited in production.

En parallèle de ces enquêtes, nous avons également dû considérer l'aspect financier. L'outil serait utilisé pour des centaines d'heures de transcription par mois. Contrairement au texte, qui est généralement assez bon marché pour ne pas avoir à y penser, l'audio peut être assez coûteux. Nous avons donc inclus ce paramètre depuis le début de notre exploration pour éviter de se retrouver avec une solution qui a fonctionné mais était trop coûteuse pour être exploitée en production.

Deep dive into transcription with Chirp2

Plongée profonde dans la transcription avec chirp2

We began with a deeper investigation of the Chirp2 model since it is considered as the “best in class” Google S2T service. A straightforward application of the documentation provided the expected result. The model turned out to be quite effective, offering good transcription with word-by-word timestamping according to the following output in json format:

Nous avons commencé par une enquête plus approfondie du modèle CHIRP2 car il est considéré comme le service Google S2T «meilleur de classe». Une application simple de la documentation a fourni le résultat attendu. Le modèle s'est avéré assez efficace, offrant une bonne transcription avec un horodatage mot par mot selon la sortie suivante au format JSON:

However, a new requirement came along the project added by the operational team : the transcription must be as faithful as possible to the original audio content and include small filler words, interjections, onomatopoeia or even mumbling that can add meaning to a conversation, and typically come from the non-speaking participant either at the same time or toward the end of a sentence of the speaking one. We’re talking about words like “oui oui,” “en effet” but also simple expressions like (hmm, ah, etc.), so typical of the French language! It’s actually not uncommon to validate or, more rarely, oppose someone point with a simple “Hmm Hmm”. Upon analyzing Chirp with transcription, we noticed that while some of these small words were present, a

Cependant, une nouvelle exigence est apparue le projet ajouté par l'équipe opérationnelle: la transcription doit être aussi fidèle que possible au contenu audio d'origine et inclure des mots, des interjections, des onomatopées ou même en marmonnant, qui peuvent ajouter un sens à une conversation, et proviennent généralement du participant non lucratif en même temps ou vers la fin d'une phrase de la parole. Nous parlons de mots comme «oui oui», «en effet» mais aussi des expressions simples comme (hmm, ah, etc.), si typique de la langue française! Il n'est en fait pas rare de valider ou, plus rarement, de s'opposer à quelqu'un avec un simple «hmm hmm». En analysant le chirp avec transcription, nous avons remarqué que si certains de ces petits mots étaient présents, un

Clause de non-responsabilité:info@kdj.com

Les informations fournies ne constituent pas des conseils commerciaux. kdj.com n’assume aucune responsabilité pour les investissements effectués sur la base des informations fournies dans cet article. Les crypto-monnaies sont très volatiles et il est fortement recommandé d’investir avec prudence après une recherche approfondie!

Si vous pensez que le contenu utilisé sur ce site Web porte atteinte à vos droits d’auteur, veuillez nous contacter immédiatement (info@kdj.com) et nous le supprimerons dans les plus brefs délais.

Autres articles publiés sur Apr 30, 2025