본문 바로가기

AI, XR.VR.AR

메타, 100개 언어 실시간 통역하는 ‘심리스’ 모델 출시

728x90

(사진=메타)



메타가 최대 100개 언어를 실시간으로 음성 번역할 수 있는 인공지능(AI) 모델을 출시했다. 이 모델은 실시간 통역을 가능케 하는 도구의 기반이 될 전망이다. 

벤처비트는 1일(현지시간) 메타가 '심리스(Seamless)'라는 언어 통역 AI 모델을 오픈 소스로 출시했다고 보도했다.

이에 따르면 실시간으로 언어 간 의사소통을 가능하게 하는 이 AI 모델은 화자의 음성 스타일, 감정 및 운율을 유지하면서 언어의 구어와 문어 간의 실시간 음성 번역을 가능하게 한다. 여기에는 한국어를 포함, 남아프리카공화국의 줄루족(Zulu) 언어까지 100여개가 넘는 언어가 포함됐다.

심리스 모델은 ▲언어 간 번역 시 화자의 음성 스타일과 감정적인 뉘앙스를 보존하는 ‘심리스 익스프레시브(SeamlessExpressive)’ 모델 ▲약 2초의 지연 시간으로 거의 실시간 번역하는 ‘심리스 스트리밍(SeamlessStreaming)’ 모델 ▲ 최대 100개 언어를 실시간 번역하고 기록할 수 있는 ‘심리스M4T v2(SeamlessM4T v2)’ 모델을 하나로 통합한 결과다. 

특히 나머지 2개 모델의 기반이 되는 ‘심리스M4T v2’ 모델은 지난 8월 공개된 ‘심리스M4T’ 모델의 업그레이드 버전으로, ▲음성 인식 ▲언어 간 음성-텍스트 변환 ▲언어 간 텍스트-텍스트 번역 ▲언어 간 음성-음성 번역 ▲언어 간 텍스트-음성 번역을 지원한다.

 

심리스M4T v2 구조도 (사진=메타)

 



메타는 “100개 이상 언어의 구어 및 문어에 걸쳐 이렇게 빠른 번역 속도를 제공하는 대규모 다국어 모델은 이번이 최초'라며 “심리스는 범용 음성 번역기를 SF 개념에서 실제 기술로 전환하는 이정표"라고 강조했다.

이 모델을 통해 스마트폰이나 웨어러블 장치를 활용한 실시간 다국어 대화부터 비디오 및 스트리밍 서비스까지 광범위한 분야에서 새로운 커뮤니케이션 경험을 구현할 수 있게 됐다.

메타는 “전반적으로 심리스가 생성할 수 있는 다차원적 경험은 기계 지원으로 언어 간 의사소통이 수행되는 방식에 단계적 변화를 가져올 수 있다”고 말했다.

메타는 심리스, 심리스 익스프레시브, 심리스 스트리밍, 심리스M4T v2 모델을 비상업적인 용도로 허깅페이스와 깃허브에 오픈 소스 공개했다.

한편 다국어 음성 인식 및 자동 번역은 구글이나 아마존, 오픈AI 등이 치열한 경쟁을 벌이는 분야다. 특히 구글은 지난 3월 100개 이상의 언어를 자동 번역할 수 있는 대형 언어모델 'USM(Universal Speech Model)'을 개발, 유튜브 자막 생성에 활용하고 있다고 밝힌 바 있다.

출처 : AI타임스(https://www.aitimes.com)