텍스트를 입력하면 음악을 연주해주는 웹기반의 무료 AI 앱 Riffusion ETC.

해리포터 쪽지보내기 자기소개 아이디로 검색 전체게시물 Lv.24 작성 작성일 2022.12.24 11:44
조회 7,664 댓글 0

이전에 입력된 텍스트를 기반으로 이미지를 생성하는 AI 툴 스테이블 디퓨전(Stable Diffusion)이라는 것을 들어보셨을 수도 있을 겁니다. Seth Forsgren와 Hayk Martiros와 같은 몇몇 개발자가 취미활동 정도로 시작한 프로젝트로 이번에는 동일한 모델을 활용하여 음악을 만들어내는 도구를 선보였습니다.

Riffusion은 스펙토그램(spectograms)에서 이미지를 생성하고 오디오 클립으로 컨버팅합니다. 입력된 텍스트를 시드(Seed)로 삼아 무한한 변형을 거듭하며 결과물을 만들어내는 것입니다.

개발자에 따르면 스펙토그램(spectogram)은 STFT(Short-time Fourier transform)이라는 방식으로 다양한 진폭과 위상을 지닌 사인파가 조합된 오디오를 생성해낼 수 있는데 Riffusion에서는 Griffin-Lim 알고리즘을 적용하여 위상이 아닌 진폭만을 사용하여 실시간으로 오디오 클립을 재구성한다고 합니다. 시각적으로 3D 스펙토그램(spectrogram)이 표시되고 다음 문장으로 바로 넘어갈 수도 있습니다. 동일한 시드(Seed) 문장이라고 해도 다른 해석으로 도출된 결과를 들을 수도 있습니다.

복잡한 원리에 비해 실용성을 논할 정도의 완성도 있는 음악을 만들어주는 단계에는 아직 이르지 못했지만 향후 어떤 식으로 발전해나갈 것인지는 기대되는 부분이 큽니다.

https://www.riffusion.com