시가총액: $2.9705T 0.430%
거래량(24시간): $76.4161B -12.010%
  • 시가총액: $2.9705T 0.430%
  • 거래량(24시간): $76.4161B -12.010%
  • 공포와 탐욕 지수:
  • 시가총액: $2.9705T 0.430%
암호화
주제
암호화
소식
cryptostopics
비디오
최고의 뉴스
암호화
주제
암호화
소식
cryptostopics
비디오
bitcoin
bitcoin

$94730.894315 USD

0.06%

ethereum
ethereum

$1803.817092 USD

0.22%

tether
tether

$1.000728 USD

0.04%

xrp
xrp

$2.242803 USD

-1.90%

bnb
bnb

$602.748908 USD

-0.53%

solana
solana

$147.616062 USD

0.03%

usd-coin
usd-coin

$1.000264 USD

0.02%

dogecoin
dogecoin

$0.175709 USD

-1.56%

cardano
cardano

$0.700941 USD

-0.38%

tron
tron

$0.243817 USD

-1.38%

sui
sui

$3.546432 USD

0.04%

chainlink
chainlink

$14.716170 USD

-1.94%

avalanche
avalanche

$21.873983 USD

0.35%

stellar
stellar

$0.280000 USD

-0.50%

unus-sed-leo
unus-sed-leo

$9.011306 USD

0.11%

암호화폐 뉴스 기사

Google Vertex AI 및 Gemini 모델로 오디오 전사 스케일링

2025/04/30 04:13

긴 오디오 인터뷰를 정확하게 기록 할 때, 구어가 영어가 아닌 경우 더욱 복잡해집니다.

This article is co-authored by Ugo Pradère and David Haüet

이 기사는 Ugo Pradère와 David Haüet의 공동 저술입니다.

How hard can it be to transcribe an interview ? You feed the audio to an AI model, wait a few minutes, and boom: perfect transcript, right ? Well… not quite.

인터뷰를하는 것이 얼마나 어려울 수 있습니까? 오디오를 AI 모델에 공급하고 몇 분 동안 기다렸다가 붐 : 완벽한 전사적입니까? 글쎄…

When it comes to accurately transcribe long audio interviews, even more when the spoken language is not English, things get a lot more complicated. You need high quality transcription with reliable speaker identification, precise timestamps, and all that at an affordable price. Not so simple after all.

긴 오디오 인터뷰를 정확하게 기록 할 때, 구어가 영어가 아닌 경우 더욱 복잡해집니다. 안정적인 스피커 식별, 정확한 타임 스탬프 및 저렴한 가격으로 모든 것을 갖춘 고품질의 전사가 필요합니다. 결국 그렇게 간단하지 않습니다.

In this article, we take you behind the scenes of our journey to build a scalable and production-ready transcription pipeline using Google’s Vertex AI and Gemini models. From unexpected model limitations to budget evaluation and timestamp drift disasters, we’ll walk you through the real challenges, and how we solved them.

이 기사에서는 Google의 Vertex AI 및 Gemini 모델을 사용하여 확장 가능하고 프로덕션 준비된 전사 파이프 라인을 구축하기위한 여정의 무대 뒤에서 당신을 데려갑니다. 예기치 않은 모델 제한에서 예산 평가 및 타임 스탬프 드리프트 재난에 이르기까지 실제 과제와 해결 방법을 안내해 드리겠습니다.

Whether you are building your own Audio Processing tool or just curious about what happens “under the hood” of a robust transcription system using a multimodal model, you will find practical insights, clever workarounds, and lessons learned that should be worth your time.

자체 오디오 처리 도구를 구축하든 멀티 모달 모델을 사용하여 강력한 전사 시스템의 "후드 아래"에 대해 궁금한 점이 있든, 실질적인 통찰력, 영리한 해결 방법 및 시간의 가치가 있어야하는 교훈을 찾을 수 있습니다.

Context of the project and constraints

프로젝트의 맥락과 제약

At the beginning of 2025, we started an interview transcription project with a clear goal : to build a system capable of transcribing interviews in French, typically involving a journalist and a guest, but not restricted to this situation, and lasting from a few minutes to over an hour. The final output was expected to be just a raw transcript but had to reflect the natural spoken dialogue written in a “book-like” dialogue, ensuring both a faithful transcription of the original audio content and a good readability.

2025 년 초, 우리는 분명한 목표를 가진 인터뷰 전사 프로젝트를 시작했습니다. 일반적으로 프랑스어로 인터뷰를 전사 할 수있는 시스템을 구축하고, 일반적으로 기자와 손님을 포함하지만이 상황에 국한되지 않고 몇 분에서 1 시간 이상 지속됩니다. 최종 출력은 단지 원시적으로 성적표 일 것으로 예상되었지만 "책과 같은"대화로 작성된 자연적인 음성 대화를 반영해야했으며, 원래 오디오 컨텐츠의 충실한 전사와 좋은 가독성을 보장합니다.

Before diving into development, we conducted a short market review of existing solutions, but the outcomes were never satisfactory : the quality was often disappointing, the pricing definitely too high for an intensive usage, and in most cases, both at once. At that point, we realized a custom pipeline would be necessary.

개발에 뛰어 들기 전에, 우리는 기존 솔루션에 대한 짧은 시장 검토를 수행했지만 결과는 결코 만족스럽지 않았습니다. 품질은 종종 실망 스러웠으며, 집중적 인 사용에 대해서는 가격이 너무 높았으며 대부분의 경우 한 번에 두 번의 가격이 너무 높았습니다. 그 시점에서 우리는 사용자 정의 파이프 라인이 필요하다는 것을 깨달았습니다.

Because our organization is engaged in the Google ecosystem, we were required to use Google Vertex AI services. Google Vertex AI offers a variety of Speech-to-Text (S2T) models for audio transcription, including specialized ones such as “Chirp,” “Latestlong,” or “Phone call,” whose names already hint at their intended use cases. However, producing a complete transcription of an interview that combines high accuracy, speaker diarization, and precise timestamping, especially for long recordings, remains a real technical and operational challenge.

우리 조직은 Google 생태계에 참여하고 있기 때문에 Google Vertex AI 서비스를 사용해야했습니다. Google Vertex AI는 오디오 전사를위한 다양한 음성-텍스트 (S2T) 모델을 제공합니다. 오디오 전사 모델은 "Chirp", "NeticeLong"또는 "Phone Call"과 같은 전문 분야를 포함하여 의도 된 사용 사례를 이미 암시합니다. 그러나, 특히 긴 녹음을 위해 높은 정확도, 스피커 선반 및 정확한 타임 스탬핑을 결합한 인터뷰의 완전한 전사를 생성하는 것은 여전히 ​​기술적이고 운영적인 과제로 남아 있습니다.

First attempts and limitations

첫 번째 시도 및 제한

We initiated our project by evaluating all those models on our use case. However, after extensive testing, we came quickly to the following conclusion : no Vertex AI service fully meets the complete set of requirements and will allow us to achieve our goal in a simple and effective manner. There was always at least one missing specification, usually on timestamping or diarization.

우리는 사용 사례에서 모든 모델을 평가하여 프로젝트를 시작했습니다. 그러나 광범위한 테스트 후, 우리는 다음과 같은 결론에 빠르게 왔습니다. Vertex AI 서비스는 전체 요구 사항 세트를 완전히 충족시키지 않으며 간단하고 효과적인 방식으로 목표를 달성 할 수 있습니다. 일반적으로 타임 스탬핑 또는 투기에는 항상 하나 이상의 누락 된 사양이있었습니다.

The terrible Google documentation, this must be said, cost us a significant amount of time during this preliminary research. This prompted us to ask Google for a meeting with a Google Cloud Machine Learning Specialist to try and find a solution to our problem. After a quick video call, our discussion with the Google rep quickly confirmed our conclusions : what we aimed to achieve was not as simple as it seemed at first. The entire set of requirements could not be fulfilled by a single Google service and a custom implementation of a VertexAI S2T service had to be developed.

끔찍한 Google 문서화는이 예비 연구 중에 상당한 시간이 걸렸습니다. 이로 인해 Google Cloud Machine Learning Specialist와의 회의를 Google에 요청하여 문제에 대한 해결책을 찾아야했습니다. 빠른 화상 통화 후, Google 담당자와의 토론은 우리의 결론을 신속하게 확인했습니다. 우리가 달성하고자하는 것은 처음에는 단순하지 않았습니다. 전체 요구 사항 세트는 단일 Google 서비스를 통해 충족 할 수 없었으며 Vertexai S2T 서비스의 사용자 정의 구현이 개발되어야했습니다.

We presented our preliminary work and decided to continue exploring two strategies :

우리는 예비 작업을 발표했으며 두 가지 전략을 계속 탐색하기로 결정했습니다.

In parallel of these investigations, we also had to consider the financial aspect. The tool would be used for hundreds of hours of transcription per month. Unlike text, which is generally cheap enough not to have to think about it, audio can be quite costly. We therefore included this parameter from the beginning of our exploration to avoid ending up with a solution that worked but was too expensive to be exploited in production.

이러한 조사와 병행하여, 우리는 또한 재정적 측면을 고려해야했습니다. 이 도구는 한 달에 수백 시간의 전사에 사용됩니다. 일반적으로 그것에 대해 생각할 필요가 없을 정도로 저렴한 텍스트와 달리 오디오는 비용이 많이들 수 있습니다. 따라서 우리는 탐사 시작 부터이 매개 변수를 포함 시켰지만 효과가 있었지만 생산에 악용하기에는 너무 비싸지 않은 솔루션으로 끝나지 않았습니다.

Deep dive into transcription with Chirp2

ChIRP2로 전사에 깊이 다이빙을합니다

We began with a deeper investigation of the Chirp2 model since it is considered as the “best in class” Google S2T service. A straightforward application of the documentation provided the expected result. The model turned out to be quite effective, offering good transcription with word-by-word timestamping according to the following output in json format:

우리는 ChiRP2 모델에 대한 더 깊은 조사로 시작하여 "최고"Google S2T 서비스로 간주되기 때문입니다. 문서의 간단한 적용은 예상 결과를 제공했습니다. 이 모델은 JSON 형식의 다음 출력에 따라 단어 단위 타임 스탬프로 우수한 전사를 제공하는 매우 효과적인 것으로 판명되었습니다.

However, a new requirement came along the project added by the operational team : the transcription must be as faithful as possible to the original audio content and include small filler words, interjections, onomatopoeia or even mumbling that can add meaning to a conversation, and typically come from the non-speaking participant either at the same time or toward the end of a sentence of the speaking one. We’re talking about words like “oui oui,” “en effet” but also simple expressions like (hmm, ah, etc.), so typical of the French language! It’s actually not uncommon to validate or, more rarely, oppose someone point with a simple “Hmm Hmm”. Upon analyzing Chirp with transcription, we noticed that while some of these small words were present, a

그러나 운영 팀이 추가 한 프로젝트에 따라 새로운 요구 사항이 제기되었습니다. 전사는 원래 오디오 컨텐츠에 최대한 충실해야하며 작은 필러 단어, 방해, 옥외 요증 또는 대화에 의미를 추가 할 수 있으며 일반적으로 말하기의 문장의 끝에서 나오는 참가자에게서 나옵니다. 우리는“Oui oui”,“en Effet”과 같은 단어에 대해 이야기하고 있으며 (hmm, ah 등) 프랑스어의 전형적인 표현과 같은 간단한 표현에 대해 이야기하고 있습니다! 실제로 간단한“흠”로 누군가를 입증하거나 거의 반대하는 것은 드문 일이 아닙니다. 전사로 Chirp를 분석 할 때, 우리는이 작은 단어 중 일부가 존재하는 동안

부인 성명:info@kdj.com

제공된 정보는 거래 조언이 아닙니다. kdj.com은 이 기사에 제공된 정보를 기반으로 이루어진 투자에 대해 어떠한 책임도 지지 않습니다. 암호화폐는 변동성이 매우 높으므로 철저한 조사 후 신중하게 투자하는 것이 좋습니다!

본 웹사이트에 사용된 내용이 귀하의 저작권을 침해한다고 판단되는 경우, 즉시 당사(info@kdj.com)로 연락주시면 즉시 삭제하도록 하겠습니다.

2025年04月30日 에 게재된 다른 기사