메타가 최대 100개 언어를 실시간으로 음성 번역할 수 있는 인공지능(AI) 모델을 출시했다. 이 모델은 실시간 통역을 가능케 하는 도구의 기반이 될 전망이다.
벤처비트는 1일(현지시간) 메타가 '심리스(Seamless)'라는 언어 통역 AI 모델을 오픈 소스로 출시했다고 보도했다.
이에 따르면 실시간으로 언어 간 의사소통을 가능하게 하는 이 AI 모델은 화자의 음성 스타일, 감정 및 운율을 유지하면서 언어의 구어와 문어 간의 실시간 음성 번역을 가능하게 한다. 여기에는 한국어를 포함, 남아프리카공화국의 줄루족(Zulu) 언어까지 100여개가 넘는 언어가 포함됐다.
심리스 모델은 ▲언어 간 번역 시 화자의 음성 스타일과 감정적인 뉘앙스를 보존하는 ‘심리스 익스프레시브(SeamlessExpressive)’ 모델 ▲약 2초의 지연 시간으로 거의 실시간 번역하는 ‘심리스 스트리밍(SeamlessStreaming)’ 모델 ▲ 최대 100개 언어를 실시간 번역하고 기록할 수 있는 ‘심리스M4T v2(SeamlessM4T v2)’ 모델을 하나로 통합한 결과다.
특히 나머지 2개 모델의 기반이 되는 ‘심리스M4T v2’ 모델은 지난 8월 공개된 ‘심리스M4T’ 모델의 업그레이드 버전으로, ▲음성 인식 ▲언어 간 음성-텍스트 변환 ▲언어 간 텍스트-텍스트 번역 ▲언어 간 음성-음성 번역 ▲언어 간 텍스트-음성 번역을 지원한다.
메타는 “100개 이상 언어의 구어 및 문어에 걸쳐 이렇게 빠른 번역 속도를 제공하는 대규모 다국어 모델은 이번이 최초'라며 “심리스는 범용 음성 번역기를 SF 개념에서 실제 기술로 전환하는 이정표"라고 강조했다.
이 모델을 통해 스마트폰이나 웨어러블 장치를 활용한 실시간 다국어 대화부터 비디오 및 스트리밍 서비스까지 광범위한 분야에서 새로운 커뮤니케이션 경험을 구현할 수 있게 됐다.
메타는 “전반적으로 심리스가 생성할 수 있는 다차원적 경험은 기계 지원으로 언어 간 의사소통이 수행되는 방식에 단계적 변화를 가져올 수 있다”고 말했다.
메타는 심리스, 심리스 익스프레시브, 심리스 스트리밍, 심리스M4T v2 모델을 비상업적인 용도로 허깅페이스와 깃허브에 오픈 소스 공개했다.
한편 다국어 음성 인식 및 자동 번역은 구글이나 아마존, 오픈AI 등이 치열한 경쟁을 벌이는 분야다. 특히 구글은 지난 3월 100개 이상의 언어를 자동 번역할 수 있는 대형 언어모델 'USM(Universal Speech Model)'을 개발, 유튜브 자막 생성에 활용하고 있다고 밝힌 바 있다.
출처 : AI타임스(https://www.aitimes.com)
'AI, XR.VR.AR' 카테고리의 다른 글
"AI와 블록체인은 함께 한다"--a16z가 2024년에 주목하는 것들 (1) | 2023.12.25 |
---|---|
한국산 ‘거대 언어 모델’ 솔라, 공개하자마자 세계 1위 (1) | 2023.12.16 |
"AI 언어모델, 사람 전문가 수준도 넘었다" 구글 '제미나이' 공개 (1) | 2023.12.07 |
"캠핑카도 전동화 추세"…페블, 신규 전기 캠핑 트레일러 공개 (0) | 2023.11.26 |
100배 확대해도 선명…카메라 성능 압도적 (0) | 2023.11.26 |