![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
Nachrichtenartikel zu Kryptowährungen
Skalierung der Audio -Transkription mit Google Vertex AI und Gemini -Modellen
Apr 30, 2025 at 04:13 am
Wenn es darum geht, lange Audio -Interviews genau zu transkribieren, werden die Dinge viel komplizierter, wenn die gesprochene Sprache nicht Englisch ist.
This article is co-authored by Ugo Pradère and David Haüet
Dieser Artikel wird von Ugo Pradère und David Haüet mitautorisiert
How hard can it be to transcribe an interview ? You feed the audio to an AI model, wait a few minutes, and boom: perfect transcript, right ? Well… not quite.
Wie schwer kann es sein, ein Interview zu transkribieren? Sie füttern das Audio an ein KI -Modell, warten Sie ein paar Minuten und boom: Perfektes Transkript, oder? Nun ... nicht ganz.
When it comes to accurately transcribe long audio interviews, even more when the spoken language is not English, things get a lot more complicated. You need high quality transcription with reliable speaker identification, precise timestamps, and all that at an affordable price. Not so simple after all.
Wenn es darum geht, lange Audio -Interviews genau zu transkribieren, werden die Dinge viel komplizierter, wenn die gesprochene Sprache nicht Englisch ist. Sie benötigen eine qualitativ hochwertige Transkription mit zuverlässiger Lautsprecheridentifikation, präzisen Zeitstempeln und all dem zu einem erschwinglichen Preis. Nicht so einfach.
In this article, we take you behind the scenes of our journey to build a scalable and production-ready transcription pipeline using Google’s Vertex AI and Gemini models. From unexpected model limitations to budget evaluation and timestamp drift disasters, we’ll walk you through the real challenges, and how we solved them.
In diesem Artikel bringen wir Sie hinter die Kulissen unserer Reise, um eine skalierbare und produktionsbereite Transkriptionspipeline mithilfe von Googles Vertex AI- und Gemini-Modellen aufzubauen. Von unerwarteten Modellbeschränkungen bis hin zu Budgetbewertung und Timestamp -Driftkatastrophen werden wir Sie durch die wirklichen Herausforderungen und die Art und Weise führen, wie wir sie gelöst haben.
Whether you are building your own Audio Processing tool or just curious about what happens “under the hood” of a robust transcription system using a multimodal model, you will find practical insights, clever workarounds, and lessons learned that should be worth your time.
Egal, ob Sie Ihr eigenes Audio -Verarbeitungstool erstellen oder nur neugierig darauf, was „unter der Haube“ eines robusten Transkriptionssystems mit einem multimodalen Modell passiert, Sie werden praktische Erkenntnisse, clevere Problemumgehungen und Lektionen finden, die Ihre Zeit wert sein sollten.
Context of the project and constraints
Kontext des Projekts und der Einschränkungen
At the beginning of 2025, we started an interview transcription project with a clear goal : to build a system capable of transcribing interviews in French, typically involving a journalist and a guest, but not restricted to this situation, and lasting from a few minutes to over an hour. The final output was expected to be just a raw transcript but had to reflect the natural spoken dialogue written in a “book-like” dialogue, ensuring both a faithful transcription of the original audio content and a good readability.
Anfang 2025 haben wir ein Interview -Transkriptionsprojekt mit einem klaren Ziel gestartet: ein System zu erstellen, das Interviews in Französisch transkriptieren kann, in der Regel einen Journalisten und einen Gast, aber nicht auf diese Situation beschränkt und von ein paar Minuten bis über eine Stunde dauerte. Es wurde erwartet, dass die endgültige Ausgabe nur ein RAW-Transkript ist, musste jedoch den natürlichen gesprochenen Dialog in einem „buchähnlichen“ Dialog widerspiegeln, um sowohl eine treue Transkription des ursprünglichen Audioinhalts als auch eine gute Lesbarkeit zu gewährleisten.
Before diving into development, we conducted a short market review of existing solutions, but the outcomes were never satisfactory : the quality was often disappointing, the pricing definitely too high for an intensive usage, and in most cases, both at once. At that point, we realized a custom pipeline would be necessary.
Bevor wir uns mit der Entwicklung befassten, führten wir eine kurze Marktüberprüfung bestehender Lösungen durch, aber die Ergebnisse waren nie zufriedenstellend: Die Qualität war oft enttäuschend, die Preisgestaltung für eine intensive Verwendung und in den meisten Fällen auf einmal. Zu diesem Zeitpunkt stellten wir fest, dass eine benutzerdefinierte Pipeline erforderlich wäre.
Because our organization is engaged in the Google ecosystem, we were required to use Google Vertex AI services. Google Vertex AI offers a variety of Speech-to-Text (S2T) models for audio transcription, including specialized ones such as “Chirp,” “Latestlong,” or “Phone call,” whose names already hint at their intended use cases. However, producing a complete transcription of an interview that combines high accuracy, speaker diarization, and precise timestamping, especially for long recordings, remains a real technical and operational challenge.
Da unsere Organisation am Google -Ökosystem tätig ist, mussten wir Google Vertex AI -Dienste verwenden. Google Vertex AI bietet eine Vielzahl von S2T-Modellen (Speech-to-Text) für die Audio-Transkription, einschließlich spezialisierter, wie „Chirp“, „letztendlich“ oder „Telefonanruf“, deren Namen bereits auf ihre beabsichtigten Anwendungsfälle hinweisen. Die Erzeugung einer vollständigen Transkription eines Interviews, das hohe Genauigkeit, Sprecherdiarisierung und präzise Zeitstempel kombiniert, insbesondere für lange Aufnahmen, bleibt eine echte technische und operative Herausforderung.
First attempts and limitations
Erste Versuche und Einschränkungen
We initiated our project by evaluating all those models on our use case. However, after extensive testing, we came quickly to the following conclusion : no Vertex AI service fully meets the complete set of requirements and will allow us to achieve our goal in a simple and effective manner. There was always at least one missing specification, usually on timestamping or diarization.
Wir haben unser Projekt initiiert, indem wir alle diese Modelle in unserem Anwendungsfall bewertet haben. Nach umfangreichen Tests kamen wir jedoch schnell zu folgender Schlussfolgerung: Kein Scheitel -AI -Service erfüllt die vollständige Anforderungen vollständig und ermöglicht es uns, unser Ziel einfach und effektiv zu erreichen. Es fehlte immer mindestens eine fehlende Spezifikation, normalerweise zum Zeitpunkt des Zeitstempels oder zur Diatrierung.
The terrible Google documentation, this must be said, cost us a significant amount of time during this preliminary research. This prompted us to ask Google for a meeting with a Google Cloud Machine Learning Specialist to try and find a solution to our problem. After a quick video call, our discussion with the Google rep quickly confirmed our conclusions : what we aimed to achieve was not as simple as it seemed at first. The entire set of requirements could not be fulfilled by a single Google service and a custom implementation of a VertexAI S2T service had to be developed.
Die schreckliche Google -Dokumentation, die gesagt werden muss, hat uns in dieser vorläufigen Forschung viel Zeit gekostet. Dies veranlasste uns, Google nach einem Meeting mit einem Spezialisten für maschinelles Lernen von Google Cloud zu bitten, eine Lösung für unser Problem zu finden. Nach einem kurzen Videoanruf bestätigte unsere Diskussion mit dem Google Rep schnell unsere Schlussfolgerungen: Was wir erreichen wollten, war nicht so einfach, wie es zuerst schien. Die gesamte Anforderungen konnten nicht durch einen einzelnen Google -Dienst erfüllt werden, und eine benutzerdefinierte Implementierung eines Vertexai -S2T -Dienstes musste entwickelt werden.
We presented our preliminary work and decided to continue exploring two strategies :
Wir haben unsere vorläufige Arbeit vorgestellt und beschlossen, zwei Strategien weiter zu untersuchen:
In parallel of these investigations, we also had to consider the financial aspect. The tool would be used for hundreds of hours of transcription per month. Unlike text, which is generally cheap enough not to have to think about it, audio can be quite costly. We therefore included this parameter from the beginning of our exploration to avoid ending up with a solution that worked but was too expensive to be exploited in production.
Parallele dieser Untersuchungen mussten wir auch den finanziellen Aspekt berücksichtigen. Das Tool würde für Hunderte von Stunden Transkription pro Monat verwendet. Im Gegensatz zu Text, der im Allgemeinen billig genug ist, um nicht darüber nachzudenken, kann Audio ziemlich kostspielig sein. Wir haben diesen Parameter vom Beginn unserer Erkundung daher aufgenommen, um zu vermeiden, dass eine Lösung, die funktioniert hat, aber zu teuer war, um in der Produktion ausgenutzt zu werden.
Deep dive into transcription with Chirp2
Tiefe Eintauchen in die Transkription mit Chirp2
We began with a deeper investigation of the Chirp2 model since it is considered as the “best in class” Google S2T service. A straightforward application of the documentation provided the expected result. The model turned out to be quite effective, offering good transcription with word-by-word timestamping according to the following output in json format:
Wir begannen mit einer tieferen Untersuchung des CHIRP2 -Modells, da es als der Google S2T -Dienst „Bester in der Klasse“ angesehen wird. Eine einfache Anwendung der Dokumentation lieferte das erwartete Ergebnis. Das Modell stellte sich als sehr effektiv heraus und bietet eine gute Transkription mit Wort-für-Wort-Zeitstempel gemäß der folgenden Ausgabe im JSON-Format:
However, a new requirement came along the project added by the operational team : the transcription must be as faithful as possible to the original audio content and include small filler words, interjections, onomatopoeia or even mumbling that can add meaning to a conversation, and typically come from the non-speaking participant either at the same time or toward the end of a sentence of the speaking one. We’re talking about words like “oui oui,” “en effet” but also simple expressions like (hmm, ah, etc.), so typical of the French language! It’s actually not uncommon to validate or, more rarely, oppose someone point with a simple “Hmm Hmm”. Upon analyzing Chirp with transcription, we noticed that while some of these small words were present, a
Es kam jedoch zu einer neuen Anforderung des Projekts, das vom operativen Team hinzugefügt wurde: Die Transkription muss für den ursprünglichen Audio-Inhalt so treu wie möglich sein und kleine Füllwörter, Interjektionen, Onomatopoeia oder sogar Murmeln enthalten, die einem Gespräch eine Bedeutung verleihen können, und in der Regel aus dem nicht sprechenden Teilnehmer gleichzeitig oder gegen Ende eines Satzes des Sprechens von einem Satz des Verurteils kommen. Wir sprechen von Wörtern wie „Oui Oui“, „en effet“, aber auch einfachen Ausdrücken wie (Hmm, Ah usw.), so typisch für die französische Sprache! Es ist eigentlich nicht ungewöhnlich, sich jemandem mit einem einfachen „Hmm Hmm“ zu validieren oder, seltener, zu widersprechen. Bei der Analyse von Chirp mit Transkription haben wir festgestellt, dass einige dieser kleinen Wörter vorhanden waren, a
Haftungsausschluss:info@kdj.com
Die bereitgestellten Informationen stellen keine Handelsberatung dar. kdj.com übernimmt keine Verantwortung für Investitionen, die auf der Grundlage der in diesem Artikel bereitgestellten Informationen getätigt werden. Kryptowährungen sind sehr volatil und es wird dringend empfohlen, nach gründlicher Recherche mit Vorsicht zu investieren!
Wenn Sie glauben, dass der auf dieser Website verwendete Inhalt Ihr Urheberrecht verletzt, kontaktieren Sie uns bitte umgehend (info@kdj.com) und wir werden ihn umgehend löschen.
-
-
- Shiba Inu (SHIB) -Preisvorhersage, die darauf vorbereitet sind, höher zu explodieren, wenn sich der Momentum entwickelt
- Apr 30, 2025 at 02:50 pm
- Die Preisvorhersage von Shiba Inu (SHIB) schien auf einen großen Schritt zu dauern, als sich die Dynamik stillschweigend der kritischen Unterstützung entwickelte.
-
- Telegramm, um 500 Mio. USD Schulden als Telegram Bond Fund (TBF) zu tokenisieren
- Apr 30, 2025 at 02:45 pm
- Libre, ein Tokenisierungsunternehmen, das eng mit Hedgefonds Brevan Howard, Hamilton Lane, Hamilton Lane, und Nomuras Digital Assets Unit Laser Digital zusammenarbeitet, plant, eine Telegrammschuld im Wert von 500 Millionen US-Dollar als Blockchain-basierte Telegrammanleihefonds (TBF) auf dem TON-Network zu Token zu Tokenisieren, der mit der Messaging-Plattform verbunden ist.
-
-
-
- Instamart arbeitet mit Kalyan Jewellers zusammen, um seine Quick Commerce -Schmuckplattform vor Akshaya Tritiya zu starten
- Apr 30, 2025 at 02:40 pm
- Instamart, Indiens wegweisende Quick Commerce -Plattform, hat sich mit Kalyan Jewellers zusammengetan, einer der vertrauenswürdigsten und kultigsten Schmuckmarken Indiens
-
-
- Bankrottes Krypto-Börse FTX hat Klagen gegen die nicht-fungiblen Token Marketplace NFT Stars und die Blockchain-Gaming-Firma Kurosemi eingereicht
- Apr 30, 2025 at 02:35 pm
- Die Klagen, die beide beim Insolvenzgericht in Delaware eingereicht wurden, gaben an, dass NFT Stars und Delysium trotz wiederholter Versuche, die Angelegenheit zu lösen, nicht alle von FTX bezahlten Token liefern.
-
- Titel: Die südkoreanischen Behörden möchten neue Vorschriften einführen, die darauf abzielen
- Apr 30, 2025 at 02:30 pm
- Input: Die südkoreanischen Behörden möchten neue Vorschriften einführen, die darauf abzielen, scharfe Spikes bei Kryptowährungspreisen unmittelbar nach der Auflistung als Anlegerverluste einzudämmen.