영상 인공지능

인공지능

인공지능 ⊃ 기계학습 ⊃ 인공신경망 ⊃ 딥 러닝

인공지능 - 인공지능 구현을 위한 몇 가지 기술이 존재한다.

기계학습 - 많은 매개변수를 넣어주면 모델이 스스로 규칙을 학습하는 방식의 인공지능 구현 방법이다.

인공신경망 - 인간의 뉴런 구조를 본떠 만든 기계 학습 방법론이다.

딥 러닝 - 입력층과 출력층 사이에 있는 은닉층에 인공 뉴런을 여러 겹 쌓고 연결한 인공신경망 방법론 중 하나이다. 즉, 단일층이 아닌 실제 뇌처럼 다층 구조로 되어있다. 21세기에 와서는 (인공신경망=딥러닝)이라고 이해해도 무방하다.

인지 컴퓨팅 - 기계학습을 이용하여 특정한 인지적 과제를 해결할 수 있는 프로그램 또는 솔루션을 이야기한다.

뉴로모픽 컴퓨팅 - 인공 신경망을 하드웨어적으로 구현한 것이라고 생각하면 된다.

생성형 인공지능
{{{#!wiki style="margin:-0px -10px -5px" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px; word-break:keep-all"	유니모달 모델 기반
<colkeepall> 텍스트	[[소설\| 소설 ]] NovelAI · AI Dungeon · AI Novelist
대화형	[[챗봇\| 챗봇 ]] ChatGPT · Microsoft Copilot · Gemini · CLOVA X · Cue: · Inflection AI · Mistral AI · Grok
대화형	[[언어 모델\| 언어모델 ]] GPT-1 · GPT-2 · GPT-3 · GPT-4 · LLaMA · Gemma · Claude · Phi · Exaone · OpenELM · Qwen · DeepSeek
코드	[[코드#컴퓨터 소프트웨어\| 코드 ]] GitHub Copilot · Devin · Phind · DeepSeek
이미지	[[그림 인공지능\| 그림 ]] Midjourney · DALL·E · Artbreeder · NovelAI Image Generation · Stable Diffusion · FLUX.1 · Gaugan2 · Dream by WOMBO · Adobe Firefly · Deep Dream Generator
	[[영상 인공지능\| 영상 ]] Stable Video · Sora · Meta Movie gen · Lumiere · Veo · Runway AI · Luma Dream Machine · Kling AI
	[[모델링\| 모델링 ]] LATTE3D
오디오 소리	[[음성\| 음성 ]] A.I.VOICE · DeepVocal · Voice Engine
오디오 소리	[[음악\| 음악 ]] Suno · Stable Audio · Udio · AIVA
멀티모달 모델 기반
대화형	+이미지 Exaone 3.5 · Samsung Gauss
	+음성/이미지 GPT-4o · ~~GPT-5~~ · Gemini · o1 · o3 · DeepSeek
	+에이전트 Galaxy AI · Claude 3.5 Sonnet
행위 동작	[[지능형 에이전트\| 에이전트 ]] Apple Intelligence · Project Astra · ~~Google Jarvis~~
행위 동작	[[인공지능 로봇\| 체화 ]] Tesla optimus · Google RT-X · Project Gr00t	}}}}}}}}}

Midjourney, Kling Ai, Luma Dream machine으로 제작한 실마릴리온 영상화 트레일러

1. 개요2. 역사

2.1. 이력

3. 영상 인공지능 서비스

3.1. 공개 서비스3.2. 미공개 서비스

4. 제작 프로토콜5. 활용

5.1. 영화5.2. 광고

1. 개요

영상 인공지능(映像人工知能, Video AI)은 생성형 인공지능 기술의 한 분야로 영상 데이터를 분석 처리, 생성하는 딥러닝 알고리즘을 말한다. 트랜스포머, 잠재 확산 모델 아키텍처 등을 사용한다.

2. 역사

영상 인공지능의 발전사는 크게 두 갈래로 정리해볼 수 있는데 하나는 페이스 스왑, 즉 딥페이크로 시작한 영상 조작 기술이며 다른 하나는 텍스트나 이미지 인풋을 기반으로 하는 생성형 영상 인공지능이다.

하지만 딥페이크 인공지능 모델은 영상에 이미지를 덧씌우는 형태로, 원본 영상 자체가 인공지능으로 생성되지는 않는다. 이런 유형의 인공지능 모델이나 서비스는 딥페이크로 통칭되며 생성형 영상 인공지능과는 별개의 것으로 간주되는 경향이 있다. 실질적으로 영상 인공지능이라 하면 T2V, I2V 기능을 갖춘 생성형 영상 인공지능을 일컫는 경우가 대부분이다.

생성형 영상 인공지능의 역사는 2023년 Runway AI사의 Runway gen1과 gen2가 시작이라고 할 수 있다. Runway gen1과 2 공개 이전의 생성형 인공지능 영상은 입모양을 바꾸거나 고개를 움직이게 하는 등 그림의 일부만 움직이는 것이 고작이었고 그게 아니면 그림 인공지능의 생성 결과물을 여러개 이어붙이는 방식이어서 부자연스럽고 일관성이 몹시 떨어졌다. 이에 반해 Runway gen1과 gen2는 클릭 한 번에 꽤 긴 길이의 비교적 일관된 형태의 영상을 만들 수 있어 i2v, t2v 모델의 가능성을 처음으로 보여주었다고 평가된다. 2023년 하반기에는 Pika labs가 Pika 1.0을 공개, 시장에서 유이한 t2v 생성형 영상 인공지능 서비스로서 양강 대결구도를 형성했다.

Runway gen2와 Pika 1.0은 그 이전의 생성형 영상 인공지능에 비해 진일보한 결과물을 만들어 냈으나 생성되는 영상 길이가 짧기도 하거니와 퀄리티 측면에서도 CGI나 실사 촬영 등 일반적인 방식으로 만들어지는 영상에 비하면 크게 떨어졌다. 시간적 일관성은 여전히 부족하기 짝이 없었으며 결과물에 대한 통제 범위에도 한계가 뚜렸했기에 일반 대중으로부터 폭넓은 관심을 받지는 못했다.

영상 인공지능이 대중적인 인지도를 얻게 된 시점은 2024년 상반기부터였다. 이 새로운 시대의 시작을 알린 것은 OpenAI의 Sora였는데, Sora는 여러모로 DALL·E2에 비견할만한 영상 ai계의 분기점이었다고 할 수 있다. 당시 최신 모델이었던 Runway gen2에 결여 되어있는 현실성과 일관성을 갖추고 있었기 때문이다. Sora는 발표는 되었으나 일반 대중에 공개되지 않았으며 다른 영상 인공지능 개발사의 개발속도와 투자에 박차를 가하는 촉매제 역할을 하였다.

이후 Runway AI를 위시한 미국과 중국의 여러 개발사가 2024년 6월을 즈음하여 연달아 Sora에 비견되는 생성형 영상 인공지능 서비스를 공개하면서 2024년은 영상 인공지능의 실질적 원년이 되었다.

2.1. 이력

2017년 11월 2일: 레딧 유저 deepfakes, 서브레딧 /r/deepfakes 개설

2020년 2월 First Order Motion Model for Image Animation 논문 출간

2020년 7월: FOMMIA를 사용한 바카미타이 밈 유행 시작

2023년 2월: Runway AI, Runway gen1과 gen2 공개

2023년 3월 15일: 유튜버 demonflyingfox, Harry potter by Balenciaga 업로드

2023년 11월 28일: Pika labs, t2v, i2v, v2v기능을 갖춘 영상 인공지능 모델 Pika 1.0 공개

2024년 2월: OpenAI, Sora 발표

2024년 6월 7일: 콰이쇼우 테크놀로지(快手 technology), 잠재 확산 트랜스포머 기반 t2v 모델 Kling AI 공개

2024년 6월 12일: Lumalabs, Dream machine 공개

2024년 6월 17일: Runway AI, Runway gen3 alpha 공개

2024년 7월 12일: Pika labs, i2v 피쳐(image conditioned video generation) 업데이트

2024년 8월 15일: Runway AI, Runway gen3 alpha turbo 출시

2024년 9월: Minimax사, t2v ai 서비스 Hailuo AI video-01 공개 [1]

2024년 9월: Kling AI 1.5 출시. 1080p 영상 생성과 모션 브러쉬 기능 업데이트

2024년 10월 2일: Pika labs, Pika 1.5 출시

2024년 10월 8일: Minimax사, Hailuo AI i2v 기능 업데이트 #

2024년 11월 1일: Runway gen3 alpha turbo 카메라 컨트롤 기능 업데이트

2024년 12월 3일: 텐센트 130억개 매개변수의 생성형 영상 인공지능 훈위안(hunyuan) 공개

2024년 12월 9일: OpenAI 연말 발표 행사 ’12 Days of OpenAI’에서 Sora 공개

2024년 12월 14일: Pika 2.0 업데이트

2024년 12월 16일: 구글 딥마인드 Veo2 발표

3. 영상 인공지능 서비스

2024년 현재 서비스되는 주요 영상 인공지능 서비스로는 Runway AI의 Runway gen3, Pika labs의 Pika 1.5, 콰이쇼우 테크놀로지의 Kling AI, Minimax사의 HailuoAI , Luma labs의 Dream machine등이 있으며 공개되지 않은 것 중에는 메타의 Meta movie gen과 Open AI의 Sora가 있다.

3.1. 공개 서비스

Runway gen 3 alpha turbo
Runway AI사의 최신 인공지능. 전작인 Runway gen3 alpha에 비해 7배의 속도 향상과 생성 비용 절감을 달성했다. 카메라 컨트롤기능과 Act-One 기능이 특징.

Pika 2.0
Pika labs에서 개발한 생성형 영상 인공지능. 전작인 Pika 1.0과 1.5의 후신이며 전경의 사물을 찌그러뜨리거나 부풀리거나 공중에 띄우는 효과 모음인 Pika effect 기능을 제공한다. pika effect를 적용한 영상은 2024년 하반기 숏폼 플랫폼에서 소소한 인기를 끌기도 했다.

Luma Dream machine
Lumalabs에서 개발한 인공지능.

Kling AI 1.5
콰이쇼우 테크놀로지에서 개발한 영상 인공지능.

Hailuo AI Video-01
Minimax사에서 개발한 영상 인공지능. 로그인 하면 매일 무료로 영상 생성에 사용할 수 있는 30크레딧을 부여하여 부분 유료 가격정책을 시행 중이다.

Sora
Open AI에서 개발한 영상 인공지능. 생성형 영상 AI의 존재를 대중에 알린 마중물 역할을 하였다.

3.2. 미공개 서비스

Meta movie gen
Meta에서 개발한 영상 인공지능. 공개되지는 않았으나 순수 t2v만으로 높은 성능을 보여 Sora 이후 가장 큰 혁신이라는 평가를 받았다.

Veo 2
구글 딥마인드에서 개발한 영상 인공지능. Sora를 비롯해 현존 최고 수준의 영상 인공지능들을 가뿐히 뛰어넘는 높은 수준의 시연 영상으로 관심층의 흥미를 불러일으키고 있다. 2025년 초순 공개예정

4. 제작 프로토콜

순수히 T2V로 제작하는 것도 가능하지만 2024년 현재까지 나온 인공지능 영상 가운데 시네마틱 비디오라고 할만한 수준의 영상은 대부분 Midjourney, Stable Diffusion, FLUX.1 등으로 고퀄리티의 그림을 먼저 생성한 후 이를 Kling, Hailuo 등 영상 인공지능의 인풋으로 사용해 텍스트 프롬프트와 image to video generation을 병행하는 방식으로 제작하는 경우가 많다.

하지만 Sora나 Veo 2의 경우 T2V 성능이 오히려 I2V나 T2I2V보다 뛰어나다고 한다. # 특히 베타테스트를 진행 중인 Veo 2의 경우 외부 이미지를 들여와 영상으로 변형하는 I2V 기능이 아예 없기 때문에 대개 텍스트 프롬프트만으로 영상을 제작한다.

5. 활용

5.1. 영화

생성형 영상 인공지능의 발전과 함께 인공지능 영화(AI film)라는 개념도 본격적으로 궤도에 오르기 시작했다. 인공지능 영화만을 위한 영화제들도 등장했으며, 한국에서도 경기콘텐츠진흥원 주도로 AI 국제영화제가 열리기도 했다.

대한민국 국제 AI 영화제 개막작 ‘아버지의 책’ 예고편

5.2. 광고

코카콜라 광고 '휴일이 온다'[2]

2024년 말을 기점으로 생성형 영상 인공지능을 광고 및 마케팅의 수단으로 삼는 기업들이 본격적으로 생기기 시작했다. 코카콜라도 그 중 하나.

2024년 11월 14일 틱톡은 게티 이미지와 협력하여 인공지능 광고 제작도구에 영상 생성 기능을 추가하기도 했다. #

[1] Hailuo AI는 비디오 생성 기능 업데이트 이전에 LLM과 음악 AI서비스로 서비스를 시작했다. [2] 코카콜라가 생성형 영상 인공지능을 사용해 1995년 동명의 자사광고를 재현한 광고

영상 인공지능

1. 개요

2. 역사

2.1. 이력

3. 영상 인공지능 서비스

3.1. 공개 서비스

3.2. 미공개 서비스

4. 제작 프로토콜

5. 활용

5.1. 영화

5.2. 광고

분류