본문 바로가기

최대 3분 길이 스테레오 음악 생성…스태빌리티.에이아이, ‘스테이블 오디오 2.0’ 발표

반응형

생성형 AI의 진화를 가늠하는 핵심 요소 중에 하나는 ‘생성된 콘텐츠의 분량’이다. 좀 더 진화한 생성형 AI 모델일수록 문자나 단어의 수가 더 많은 텍스트 문서를 만들고, 재생 시간이 더 긴 오디오나 동영상을 제작하는 능력을 갖게 된다. 물론 무조건 분량과 길이를 늘이는 것이 아니라, 의미나 품질 역시 그 수준에 맞아야 한다.

스태빌리티.에이아이(stability.ai)가 오디오 생성형 AI인 ‘스태이블 오디오 2.0(Stable Audio 2.0)'을 발표했다. 2023년 9월에 선보였던 스테이블 오디오 1.0 버전을 업그레이드한 것으로, CD 음질 수준인 44.1kHz의 스테레오로 최대 3분 분량의 음악을 생성할 수 있도록 성능을 개선했다.


스태이블 오디오 2.0은 텍스트-텍스트, 오디오-오디오를 지원하는 생성형 AI로, 최대 3분 길이의 스테레오 음악을 생성한다. (자료 : stability.ai)


스테이블 오디오 1.0이 최대 1분 30초 분량의 음악을 생성할 수 있었던 것과 비교하면 2배나 긴 오디오 파일을 만들 수 있게 된 것이다. 일반적인 음악이 보통 3분 정도 내외의 재생 시간을 갖는 만큼, 널리 사용되는 오디오 파일을 생성형 AI로 쉽고 빠르게 만들 수 있게 됐다.

생성형 AI가 대부분 그렇듯이 스테이블 오디오 2.0 역시 텍스트-텍스트 형식의 프롬프트를 사용해 음악을 생성한다. 음악 형식이나 장르, 악기, 용도 등 원하는 느낌이나 분위기를 문자로 입력하면, 이를 기반으로 고음질 스테레오 음악을 생성한다.

예를 들어 ‘아름다움으로 가득 찬 피아노 아르페지오’, ‘일텍트리카, 악기, 아케이드. 빈티지 드럼’, ‘로파이 펑크(Lo-fi funk)’처럼 만들고 싶은 음악을 문자로 요청할 수 있다. 음악을 만드는 전문적인 지식이 없는 사람이라도 음향 효과나 배경 음악으로 사용할 수 있는 음악을 어렵지 않게 만들 수 있다.

하지만 스테이블 오디오 2.0이 더욱 매력적인 것은 오디오-오디오 생성을 지원한다는 점이다. 즉, 오디오 파일을 입력하면 이를 기반으로 새로운 음악 파일을 바로 만들 수 있다. 책상이나 그릇을 두드리거나 입으로 흥얼 거린 멜로디 등을 녹음한 파일을 업로드하면, 이 파일을 기반으로 새로운 음악 파일을 만들어 준다.

물론 업로드하는 입력용 오디오는 저작권이 없는 자연적인 소리나 본인이 직접 만든 소스여야 한다. 이렇게 업로드된 오디오 파일은 오디오블 매직(Audioble Magic)과 제휴한 콘텐츠 인식 기술을 활용해 실시간으로 저작권을 침해하는 지 확인하는 과정을 거친다.

오디오 파일을 업로드한 후 텍스트 프로프트에 ‘드럼’, ‘베이스 기타’처럼 악기나 음악 스타일을 입력하면 이를 기반으로 음악 파일을 만들 수 있다. 또한, 업로드하거나 새로 생성한 오디오 파일을 수정하고 테마를 이용해 특정 스타일을 적용할 수 있는 스타일 트랜스퍼(Style Transfer)를 지원해 변경하거나 다듬을 수 있다.

 

Syndicated to WWW.CIOKOREA.COM

반응형