스태빌리티 AI, '비디오 생성 AI' 출시

이미지 생성 인공지능(AI) '스테이블 디퓨전'으로 유명한

스태빌리티 AI가 이번에는 동영상 생성 AI를 내놓았다.

출시 초기라 기능은 많지 않지만,

영상 퀄리티는 최근 등장한 AI 중 최고급이라는 설명이다.

스태빌리티 AI가 기존 이미지에 애니메이션을 적용하여 짧은 비디오를 만들어내는

'스테이블 비디오 디퓨전(SVD)'을 프리뷰 형식으로 출시했다고 보도되었습니다.

SVD는 기존 이미지 모델인 스테이블 디퓨전을 기반으로 하며,

오픈 소스로 상업적 사용이 가능합니다.

또한, 이미지를 초당 14프레임의 4초짜리 576×1024 비디오로

변환하는 기본 모델(SVD)과 24프레임의 SVD-XT 등 두 가지 버전을 공개하였습니다.

이 두 모델은 모두 초당 3~30프레임의 속도로 비디오를 생성할 수 있습니다.

이 모델은 수백만개의 공개된 비디오 데이터셋을 학습한 뒤

수십만~100만개의 클립셋으로 미세조정했다.

스태빌리티 AI는 런웨이나 피카랩스의 모델보다 뛰어난 품질의 영상을 생성했다는

내용의 연구 결과를 허깅페이스를 통해 공개했다.

또한, 이 모델은 텍스트 프롬프트를 아직 지원하지 않는다는 한계가 있다.

그러나, 이 모델은 영상 내 텍스트를 만들어내지는 못하지만 다른 다양한 기능을

제공하여 영상 생성의 다양성을 증가시킬 수 있다.

예를 들면, 다양한 색상 및 스타일의 영상을 생성할 수 있으며,

원하는 객체나 배경을 포함하는 영상을 만들 수도 있다.

따라서 이 모델은 영상 생성에 있어서 다양한 가능성을 제시한다.

하지만 향후 업그레이드를 통해 텍스트-비디오로 기능를 확장하는 등

"광고나 교육, 엔터테인먼트 등 다양한 분야에 응용할 수 있는" 서비스를 준비하고 있다고 밝혔다.

이 서비스는 사용자들에게 다양한 기능과 활용

가능성을 제공하여 더 많은 분야에서 활용할 수 있도록 한다.

이는 이달 초 공개한 3D 이미지 생성 ‘스테이블 3D(Stable 3D)’ 모델과 같은 맥락이다.

이 모델은 그래픽 디자인과 비디오 게임 개발 등 기업 서비스에 초점을 맞추어 제공한다.

따라서, 기업 대상으로 돈을 벌 수 있는 의도가 있다.

이미지 생성 인공지능(AI) 분야의 경쟁은 더욱 치열해지고 있다.

최근에는 메타가 텍스트나 이미지를 기반으로 비디오를 만드는

'에뮤 비디오(Emu Video)'를 공개하였다.

이 모델은 텍스트 입력이나 참조 이미지 입력, 또는 둘을 합친 상태로 사용할 수 있으며,

4초 길이의 애니메이션 클립을 생성한다.

이 모델은 아직 개발 중이며, 출시 시기도 공개되지 않았다.

그러나 이미지 생성 AI 분야에서의 기술적인 진보와 경쟁은 계속되고 있으며,

사용자들은 더 많은 선택과 다양한 기능을 기대할 수 있다.

관련글