AI를 위한 839명의 인간 활동 기록...메타, 멀티모달 데이터 세트 Ego-Exo4D 발표
메타가 1,422시간 이상의 분량의 인간 활동을 영상으로 기록한 이고-엑소4D(Ego-Exo4D)를 발표했다. 이고-엑소4D는 839명의 참가자가 전 세계 13개 도시에서 일상적인 생활 속에서 활동하는 '숙련된 사람의 행동'을 다채널 영상과 오디오로 담아낸 멀티모달, 멀티뷰, 비디오 데이터 세트로, AI를 위한 비디오 학습 및 다중 모드 인식에 활용할 수 있는 요긴한 자료다. 이고-엑소4D는 요리, 음악, 축구, 건강, 농구, 춤, 자전거 수리, 암벽 등반을 하는 사람과 주변에 카메라를 설치하고 다양한 각도에서 인간의 활동을 기록했다. 사람은 안경 형태의 웨어러블 카메라를 이용해 현재하고 있는 행동을 1인칭 시점에서 기록한 자기중심적(egocentric)인 영상을 촬영하도록 했고, 사람 주변에 설치한 여..
2023. 12. 8.
더보기
멀티모달 음성, 문자 번역 AI 모델...메타, 최대 100개 언어 지원 '심리스M4T'
번역기는 컴퓨터, 인터넷, 스마트폰만큼이나 일상과 업무에서 자연스럽고 꼭 필요한 도구가 됐다. 인공 번역 기술의 발전은 제법 오랜 역사를 가지고 있다. 하지만 지금처럼 제법 쓸만한 번역기가 활용되기 시작한 것은, 인공 지능이 번역에 본격적으로 활용되기 시작한 이후다. 그러나 아직 한계는 있다 문자 입력을 문자 출력으로 번역하거나, 음성 입력을 음성 출력으로 번역하는 단일 모달리티에 머물러 있기 때문이다. 메타(Meta)가 싱글 모달 중심이던 AI 기반 번역 기술을 한 단계 진화시킨 멀티모달 AI 모델 심리스M4T(SeamlessM4T)를 발표했다. 문자와 음성을 동시에 지원하는 심리스M4T는 문자-문자, 음성-음성, 문자-음성, 음성-문자 형태로, 상황에 따라 편리하고 효율적인 다국어 번역 기능을 제공한..
2023. 8. 24.
더보기
생각하는 대로 이미지 생성, 다양한 형태로 사람과 소통...AI는 멀티모달로 진화중
소식이나 기술로 접하는 인공지능은 '나'와 조금은 동떨어져 보이지만, 실생활 속에 인공지능은 이미 '나'의 삶 곳곳에 자리를 잡고 있다. 인터넷 포털 속에서 제공하는 수 많은 정보나 검색 엔진부터 메신저, 스트리밍, 게임, 음성 비서, 사진이나 동영상 앱 등 이미 수 많은 곳에서 인공지능이 활약하고 있다. 하지만 지금까지의 인공지능은 인간의 감각이나 능력 중에서 어느 한 가지에 초점을 맞춰 특화 시킨 것이 대부분이다. 예를 들어 문자와 문장을 인식하고 분석해 검색이나 번역에 활용하고, 음성으로 정보를 주고 받는 음성 기반 인공지능 비서, 영상이나 동영상 속의 사물이나 문자를 인식하고 구분하는 것이 그렇다. | 텍스트-이미지 또는 언어-이미지 등 여러 채널로 상호작용하는 멀티모달 AI 컴퓨터, 스마트폰, ..
2022. 12. 9.
더보기