時価総額: $2.9705T 0.430%
ボリューム(24時間): $76.4161B -12.010%
  • 時価総額: $2.9705T 0.430%
  • ボリューム(24時間): $76.4161B -12.010%
  • 恐怖と貪欲の指数:
  • 時価総額: $2.9705T 0.430%
暗号
トピック
暗号化
ニュース
暗号造園
動画
トップニュース
暗号
トピック
暗号化
ニュース
暗号造園
動画
bitcoin
bitcoin

$94730.894315 USD

0.06%

ethereum
ethereum

$1803.817092 USD

0.22%

tether
tether

$1.000728 USD

0.04%

xrp
xrp

$2.242803 USD

-1.90%

bnb
bnb

$602.748908 USD

-0.53%

solana
solana

$147.616062 USD

0.03%

usd-coin
usd-coin

$1.000264 USD

0.02%

dogecoin
dogecoin

$0.175709 USD

-1.56%

cardano
cardano

$0.700941 USD

-0.38%

tron
tron

$0.243817 USD

-1.38%

sui
sui

$3.546432 USD

0.04%

chainlink
chainlink

$14.716170 USD

-1.94%

avalanche
avalanche

$21.873983 USD

0.35%

stellar
stellar

$0.280000 USD

-0.50%

unus-sed-leo
unus-sed-leo

$9.011306 USD

0.11%

暗号通貨のニュース記事

Google Vertex AIおよびGeminiモデルを使用したオーディオ転写のスケーリング

2025/04/30 04:13

長いオーディオインタビューを正確に転写することになると、話された言語が英語ではない場合、物事はより複雑になります。

This article is co-authored by Ugo Pradère and David Haüet

この記事は、UgoPradèreとDavidHaüetによって共著されています

How hard can it be to transcribe an interview ? You feed the audio to an AI model, wait a few minutes, and boom: perfect transcript, right ? Well… not quite.

インタビューを転写するのはどれほど難しいでしょうか?オーディオをAIモデルに送り、数分待って、ブーム:完璧なトランスクリプトですよね?まあ…まったくそうではありません。

When it comes to accurately transcribe long audio interviews, even more when the spoken language is not English, things get a lot more complicated. You need high quality transcription with reliable speaker identification, precise timestamps, and all that at an affordable price. Not so simple after all.

長いオーディオインタビューを正確に転写することになると、話された言語が英語ではない場合、物事はより複雑になります。信頼できるスピーカーの識別、正確なタイムスタンプ、およびすべての手頃な価格で高品質の転写が必要です。結局のところ、それほど単純ではありません。

In this article, we take you behind the scenes of our journey to build a scalable and production-ready transcription pipeline using Google’s Vertex AI and Gemini models. From unexpected model limitations to budget evaluation and timestamp drift disasters, we’ll walk you through the real challenges, and how we solved them.

この記事では、GoogleのVertex AIおよびGeminiモデルを使用して、スケーラブルで制作可能な転写パイプラインを構築するための旅の舞台裏をご覧ください。予期しないモデルの制限から予算評価やタイムスタンプドリフト災害まで、実際の課題とそれらの解決方法を説明します。

Whether you are building your own Audio Processing tool or just curious about what happens “under the hood” of a robust transcription system using a multimodal model, you will find practical insights, clever workarounds, and lessons learned that should be worth your time.

独自のオーディオ処理ツールを構築している場合でも、マルチモーダルモデルを使用して堅牢な転写システムの「フードの下」が何が起こるかに興味がある場合でも、実用的な洞察、巧妙な回避策、学んだ教訓を見つけることができます。

Context of the project and constraints

プロジェクトと制約のコンテキスト

At the beginning of 2025, we started an interview transcription project with a clear goal : to build a system capable of transcribing interviews in French, typically involving a journalist and a guest, but not restricted to this situation, and lasting from a few minutes to over an hour. The final output was expected to be just a raw transcript but had to reflect the natural spoken dialogue written in a “book-like” dialogue, ensuring both a faithful transcription of the original audio content and a good readability.

2025年の初めに、明確な目標を持ってインタビュー転写プロジェクトを開始しました。フランス語でインタビューを転写できるシステムを構築すること、通常はジャーナリストとゲストが関与しますが、この状況に限定されず、数分から1時間以上続くことです。最終出力は単なる生の成績証明書であると予想されていましたが、「本のような」対話で書かれた自然な話された対話を反映する必要があり、元のオーディオコンテンツの忠実な転写と適切な読みやすさの両方を確保しました。

Before diving into development, we conducted a short market review of existing solutions, but the outcomes were never satisfactory : the quality was often disappointing, the pricing definitely too high for an intensive usage, and in most cases, both at once. At that point, we realized a custom pipeline would be necessary.

開発に飛び込む前に、既存のソリューションの短い市場レビューを実施しましたが、結果は満足のいくものではありませんでした。品質はしばしば残念でした。その時点で、カスタムパイプラインが必要であることに気付きました。

Because our organization is engaged in the Google ecosystem, we were required to use Google Vertex AI services. Google Vertex AI offers a variety of Speech-to-Text (S2T) models for audio transcription, including specialized ones such as “Chirp,” “Latestlong,” or “Phone call,” whose names already hint at their intended use cases. However, producing a complete transcription of an interview that combines high accuracy, speaker diarization, and precise timestamping, especially for long recordings, remains a real technical and operational challenge.

私たちの組織はGoogleエコシステムに従事しているため、Google Vertex AI Servicesを使用する必要がありました。 Google Vertex AIは、「Chirp」、「最新」、「電話」などの専門化されたものを含む、オーディオ転写のためのさまざまなスピーチツーテキスト(S2T)モデルを提供しています。ただし、特に長い録音のために、高精度、スピーカーのダイアリゼーション、および正確なタイムスタンプを組み合わせたインタビューの完全な転写を作成することは、依然として実際の技術的および運用上の課題です。

First attempts and limitations

最初の試みと制限

We initiated our project by evaluating all those models on our use case. However, after extensive testing, we came quickly to the following conclusion : no Vertex AI service fully meets the complete set of requirements and will allow us to achieve our goal in a simple and effective manner. There was always at least one missing specification, usually on timestamping or diarization.

ユースケースのすべてのモデルを評価することにより、プロジェクトを開始しました。ただし、広範なテストの後、次の結論に至りました。頂点AIサービスが要件の完全なセットを完全に満たしていないため、シンプルで効果的な方法で目標を達成できるようになります。通常、タイムスタンプまたはダイアリゼーションに関する少なくとも1つの欠落仕様がありました。

The terrible Google documentation, this must be said, cost us a significant amount of time during this preliminary research. This prompted us to ask Google for a meeting with a Google Cloud Machine Learning Specialist to try and find a solution to our problem. After a quick video call, our discussion with the Google rep quickly confirmed our conclusions : what we aimed to achieve was not as simple as it seemed at first. The entire set of requirements could not be fulfilled by a single Google service and a custom implementation of a VertexAI S2T service had to be developed.

これは、この予備的な研究中にかなりの時間がかかると言わなければならないという恐ろしいGoogleのドキュメントです。これにより、Google Cloud Machine Learningスペシャリストとの会議をGoogleに依頼して、問題の解決策を見つけようと依頼するようになりました。簡単なビデオ通話の後、Googleの担当者との議論は、私たちの結論をすぐに確認しました。達成することを目指したことは、最初は見た目ほど単純ではありませんでした。一連の要件を1つのGoogleサービスで満たすことはできず、Vertexai S2Tサービスのカスタム実装を開発する必要がありました。

We presented our preliminary work and decided to continue exploring two strategies :

予備作業を提示し、2つの戦略を模索し続けることにしました。

In parallel of these investigations, we also had to consider the financial aspect. The tool would be used for hundreds of hours of transcription per month. Unlike text, which is generally cheap enough not to have to think about it, audio can be quite costly. We therefore included this parameter from the beginning of our exploration to avoid ending up with a solution that worked but was too expensive to be exploited in production.

これらの調査と並行して、財務的側面も考慮する必要がありました。このツールは、1か月あたり数百時間の転写に使用されます。一般的に考える必要がないほど安価であるテキストとは異なり、オーディオは非常に費用がかかる場合があります。したがって、このパラメーターを探索の開始から含めて、機能したソリューションで終わるが、生産で悪用されるには高すぎることを避けました。

Deep dive into transcription with Chirp2

Chirp2を使用して転写に深く飛び込みます

We began with a deeper investigation of the Chirp2 model since it is considered as the “best in class” Google S2T service. A straightforward application of the documentation provided the expected result. The model turned out to be quite effective, offering good transcription with word-by-word timestamping according to the following output in json format:

CHIRP2モデルは、「クラスで最高の」Google S2Tサービスと見なされているため、CHIRP2モデルのより深い調査から始めました。ドキュメントの簡単なアプリケーションが期待される結果を提供しました。このモデルは非常に効果的であることが判明し、JSON形式の次の出力に従って、単語ごとのタイムスタンプで適切な転写を提供します。

However, a new requirement came along the project added by the operational team : the transcription must be as faithful as possible to the original audio content and include small filler words, interjections, onomatopoeia or even mumbling that can add meaning to a conversation, and typically come from the non-speaking participant either at the same time or toward the end of a sentence of the speaking one. We’re talking about words like “oui oui,” “en effet” but also simple expressions like (hmm, ah, etc.), so typical of the French language! It’s actually not uncommon to validate or, more rarely, oppose someone point with a simple “Hmm Hmm”. Upon analyzing Chirp with transcription, we noticed that while some of these small words were present, a

ただし、運用チームによって追加されたプロジェクトに沿って新しい要件が生まれました。転写は、元のオーディオコンテンツに可能な限り忠実でなければならず、小さなフィラーワード、間隔、オノマトペイア、または会話に意味を追加することができ、通常は話すことのない参加者から来るか、または話す人の刑の終わりに向かっています。 「oui oui」、「en effet」のような言葉について話しているだけでなく、フランス語の典型的なような単純な表現(うーん、ああなど)についても話しています!実際には、単純な「うーん、うーん」で誰かにポイントを検証したり、よりめったに反対することは珍しくありません。転写でチャープを分析すると、これらの小さな単語のいくつかが存在している間、

免責事項:info@kdj.com

提供される情報は取引に関するアドバイスではありません。 kdj.com は、この記事で提供される情報に基づいて行われた投資に対して一切の責任を負いません。暗号通貨は変動性が高いため、十分な調査を行った上で慎重に投資することを強くお勧めします。

このウェブサイトで使用されているコンテンツが著作権を侵害していると思われる場合は、直ちに当社 (info@kdj.com) までご連絡ください。速やかに削除させていただきます。

2025年04月30日 に掲載されたその他の記事