
Image by Firmbee.com, from Unsplash
구글의 Gemini 2.5, 실시간 오디오와 맞춤형 음성 도구 추가
구글은 Gemini 2.5 모델에서 기본 오디오 기능을 소개하며, 실시간 대화와 제어 가능한 텍스트-투-스피치(TTS) 생성에 대한 기본 지원을 확장했습니다.
시간이 촉박하신가요? 여기에 핵심 내용을 간략하게 정리해 두었습니다:
- 사용자들은 목소리나 프롬프트를 사용하여 음조, 악센트, 그리고 감정을 제어할 수 있습니다.
- 텍스트-투-스피치 기능은 표현력있고, 다양한 언어, 다중 스피커 오디오 생성이 가능합니다.
- 제미니는 배경 소음을 무시하고 관련성이 있을 때만 반응합니다.
Google은 공지했습니다 사용자와 개발자들이 이제 AI를 통해 말하기 대화를 나누고 오디오 컨텐츠를 생성할 수 있으며, 이를 위한 선택지로 24개 이상의 언어 옵션을 제공한다고 합니다.
Google은 Gemini 2.5가 이제 오디오로 직접적으로 발화를 생성하고 이해함으로써 사용자들이 보다 빠르고 자연스럽게 상호작용할 수 있게 되었다고 발표했습니다. 이 모델은 자연어 명령을 받아서 그 톤, 악센트, 그리고 스타일을 변경하며, 말의 쉼표와 속삭임과 같은 비언어적 특성들을 추가할 수 있습니다.
이 시스템은 Google 검색과 사용자 정의 API를 통해 대화 중에 관련 정보를 검색하도록 외부 도구 연결성을 유지합니다.
한 가지 기능은 맥락 인식력을 향상시키는 것을 목표로 합니다. Gemini 2.5 시스템은 배경 소음이나 대화를 감지하여 적절할 때만 응답을 제공합니다. 이 시스템은 오디오-비디오 이해를 지원하여, 비디오 피드나 공유된 화면 내용에 대해 분석하고 코멘트를 제공할 수 있게 해줍니다.
텍스트-투-스피치 컴포넌트 역시 업데이트되었습니다. 사용자는 이제 감정적인 어조 조정, 말하기 속도 제어, 발음 맞춤화, 그리고 다양한 화자의 오디오 출력 등 고급 기능으로 오디오 생성을 제어할 수 있습니다. 이러한 기능들은 스토리텔링, 공지사항, 팟캐스트 등 다양한 콘텐츠 유형과 함께 작동합니다.
구글은 Google AI 스튜디오 또는 Vertex AI를 통해 개발자들에게 Gemini 2.5 Pro 및 Flash 미리보기를 제공합니다. Flash 미리보기는 빠르고 저렴하게 사용할 수 있도록 서비스하며, 반면에 Pro는 복잡한 프롬프트에 대한 고급 기능을 제공합니다.
구글은 개발 중인 모든 AI 생성 오디오에 SynthID를 통한 워터마킹을 적용하여 투명성을 보장하고, 안전 목적으로 위험 평가를 수행하였습니다. 이 회사는 시스템을 대중에게 공개하기 전에 내부와 외부의 안전 평가를 실시하였습니다. 구글은 이러한 기능을 텍스트, 이미지, 비디오, 코드, 고급 오디오 사이에서 작동하는 다중모달 AI 시스템을 개발하는 노력의 일환으로 구현합니다.