최근 수정 시각 : 2024-11-23 16:35:25

인공지능 로봇

AI로봇에서 넘어옴
생성형 인공지능
{{{#!wiki style="margin:-0px -10px -5px"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin:-5px -1px -11px; word-break:keep-all"
유니모달 모델 기반
텍스트 [[소설|
소설
]] NovelAI · AI Dungeon · AI Novelist · GPTRPG
대화형 [[챗봇|
챗봇
]] ChatGPT · Microsoft Copilot · Gemini · CLOVA X · Cue: · Inflection AI · Mistral AI · Grok
[[언어 모델|
언어모델
]] GPT-1 · GPT-2 · GPT-3 · GPT-4 · o1 · LLaMA · Gemma · Claude · Phi · Exaone
코드 [[코드#컴퓨터 소프트웨어|
코드
]] GitHub Copilot · Devin · Phind
이미지 [[그림 인공지능|
그림
]] Midjourney · DALL·E · Artbreeder · NovelAI Image Generation · Stable Diffusion · FLUX.1 · Gaugan2 · Dream by WOMBO · Adobe Firefly · Deep Dream Generator
[[영상 인공지능|
영상
]] Stable Video · Sora · Meta Movie gen · Lumiere · Veo · Runway AI · Luma Dream Machine · Kling AI
[[모델링|
모델링
]] LATTE3D
오디오/소리 [[음성|
음성
]] A.I.VOICE · DeepVocal · Voice Engine
[[음악|
음악
]] Suno · Stable Audio · Udio · AIVA · SOUNDRAW · keeneat · Mix.audio · vio.dio
멀티모달 모델 기반
대화형
+이미지
Exaone 3.0 · Samsung Gauss
+음성/이미지
GPT-4o · GPT-5 · Gemini
+에이전트
Galaxy AI · Claude 3.5 Sonnet
행위/동작 [[지능형 에이전트|
에이전트
]] Apple Intelligence · Google Jarvis
[[인공지능 로봇|
체화
]] Tesla optimus · Google RT-X · Project Gr00t
}}}}}}}}}


1. 개요2. 정의
2.1. 협의의 인공지능 로봇2.2. 광의의 인공지능 로봇
3. 역사4. 개발사5. 용어 사용의 혼선
5.1. 非인공지능 로봇 개발사
6. 관련 문서7. 둘러보기

1. 개요

인공지능 시스템을 결합시킨 로봇을 말한다.

2. 정의

2022년 달리2의 등장과 함께 본격적으로 상업적 용도로 사용 가능한 퀄리티의 그림 인공지능이 대두하고 그 해 연말 ChatGPT 서비스 시작과 함께 딥러닝 기반 인공지능이 언론의 주목을 대대적으로 받기 시작한 이후 AI로봇에 대한 정확한 학술적 정의가 존재하지 않음에도 AI로봇, 혹은 인공지능 로봇이라는 용어는 언론과 대중들에 의해 널리 사용되고 있다.

인공지능 로봇(AI robot)이란 기본적으로 AI와 로봇의 합성어이므로 로봇의 사용 목적에 필수적인 여러 기능을 구현하는 데 딥러닝 메커니즘이 적용된 경우를 모두 포함할 수 있는데, 주변 기능을 인공지능을 통해 구현한 광의의 인공지능 로봇과 핵심기능을 포함한 대부분의 시스템을 인공지능을 기반으로 구축한 협의의 인공지능 로봇으로 나눌 수 있다.

2.1. 협의의 인공지능 로봇

입력에서 출력까지 파이프라인 네트워크 없이 신경망으로 한 번에 처리하는 엔드 투 엔드 시스템(end to end system) 인공지능 로봇. 즉 구현에 있어서 로봇의 핵심 동작을 하드코딩 하지 않는 경우를 일컫는다. 여러모로 진정한 의미에서의 인공지능 로봇에 해당하는 부류이다. 로봇은 기본적으로 시각, 촉각, 청각 등 다양한 감각 자극을 처리하여 직접 행동이나 언어 등의 피드백으로 옮겨야 하므로 이와 같은 로봇의 구현을 위해서는 대형 멀티모달 모델(LMM, Large multimodal model) 혹은 T2A(text to action) 모델의 적용이 반드시 필요하다. 세간의 편견과는 달리 인공지능 로봇이 반드시 휴먼 폼팩터(human form factor)를 가질 필요는 없으나 아래에 소개된 사례는 하드웨어가 아닌 운영체제인 RT-X와 프로젝트 그루트, 손로봇인 닥틸을 제외하면 전원 휴머노이드이기도 하다.
  • 닥틸 (OpenAI)
  • 이브 (1X 테크놀로지 ) [2]
  • 네오 (1X 테크놀로지 ) [3]
  • 피닉스 (Sanctuary AI)
  • 프로젝트 그루트 (Project Gr00t, 엔비디아) : 인간의 행동이나 영상을 관찰하고 자연어 명령을 이해한 다음 움직임을 모방·학습하는 로봇 플랫폼 개발을 목표로 하는 프로젝트. 프로젝트 그루트의 일환으로 젯슨 소르(Jetson Thor) [4]라고 하는 휴머노이드 로봇 전용 컴퓨터가 공개 되었다. 또한 기존에 엔비디아가 운영하고 있던 아이작 로보틱스 플랫폼[5]에 새로운 인공지능 파운데이션 모델과 시뮬레이션 및 AI 워크 플로우 인프라를 위한 툴이 추가 되었다. [6]
}}} ||
  • G1 (Unitree) : e2e ai역량(end-to-end capability)을 가지고 있는 것으로 알려져있다.
}}} ||

2.2. 광의의 인공지능 로봇

로봇 시스템의 주변기능 구현에 AI를 적용한 로봇으로 오디오 투 액션(audio to action) 혹은 텍스트 투 액션 컴포넌트 (text to action component)가 빠져있는 로봇들이다. 이런 로봇들은 전통적인 로봇공학을 사용해 모든 움직임을 하드코딩 하거나 원격 조종(teleoperation)을 통해 움직이므로 자율적으로 움직일 수 없는 경우가 많다. 다만 거대 언어 모델(LLM)을 탑재하여 인간과 자연어로 소통이 가능한 경우, 사람이 일일이 리모컨으로 움직임을 조정하되 시각정보처리 인공지능을 탑재하는 경우 등도 한정적이지만 인공지능을 로봇에 적용한 사례로 보아야 할 것이다. 따라서 이들 역시 넓은 의미에서는 인공지능 로봇의 범주에 들어갈 수 있다.

3. 역사

인공지능을 부분적으로 결합시킨 로봇들은 좀 더 이전부터 있어왔지만 인공지능만으로 핵심 기능을 구동하는 로봇은 그 역사가 극히 짧다. 아래의 연표는 엔드 투 엔드 인공지능 시스템을 도입한 로봇만을 열거하고 있다.
2022년까지 연달아 좌절되거나 제한적인 성능을 보여주던 AI로봇이 2023년 처음으로 실질적인 성과를 달성, 대중에게 공개되기 시작하였다. 비록 AI로봇이 그 개념은 매우 오래지만 개념증명적 측면에서 AI로봇의 역사는 2023년부터 시작되었다고 해도 과언이 아니다. 인공지능 로봇의 주요 개발사로는 구글, 테슬라, OpenAI, NVIDIA, FigureAI 등이 있으며 더 많은 개발사들이 점점 인공지능 로봇 개발에 뛰어들고 있다
  • 2018년 : 챗GPT의 개발사인 OpenAI가 손의 기능과 모양을 흉내낸 로봇 닥틸(Dactyl)을 개발
  • 2021년 : OpenAI 로봇팀 해체, 테슬라 AI데이에서 처음으로 테슬라 옵티머스 프로토 타입 범블비(Bumblebee) 공개
  • 2022년 : 구글 RT-1 공개
  • 2023년 5월: Sanctuary AI 피닉스(Pheonix) 공개
  • 2023년 9월: 테슬라 옵티머스 1세대 공개, 유니트리(Unitree) 파쿠르 하는 로봇개 로봇 공개.
  • 2023년 10월: 구글 범용 로봇 인공지능 RT-X 공개
  • 2023년 10월: 엔비디아 LLM 기반 로봇 시뮬레이션 Eureka 공개 #
  • 2023년 12월 : 테슬라 옵티머스 2세대 공개
  • 2024년 1월 : 1X technologies 자사 로봇 이브(eve)에 E2E 자율성(end-to-end autonomy)탑재 업데이트
  • 2024년 3월 : Figure AI OpenAI 와의 파트너십 공개 이후 처음으로 자연어 처리능력과 자세제어 능력이 하나의 모델로 결합된 기술시연 영상 공개 #, 엔비디아 ‘GTC 2024’에서 로봇 통합 프로젝트 ‘그루트(GR00T)'발표.
  • 2024년 5월 : 엔비디아가 로봇 훈련 시뮬레이션 DrEureka # 공개
  • 2024년 5월 : Unitree가 e2e 인공지능 안드로이드 G1을 공개
  • 2024년 9월 : MIT연구팀 이종 사전훈련 트랜스포머(Heterogenous pre-trained transformers)개발
  • 2024년 10월 : Meta, 비전 기반 촉각 센싱 범용 인코더 Sparsh, 인공 손끝 Digit360 및 촉각 지각 인공손 표준화 플랫폼 Digit plexus 동시 공개, GelSight Inc 및 Wonik Robotics 과 전략적 파트너쉽 체결 사실 공표
  • 2024년 10월 : 엔비디아 Gear lab, 휴머노이드 로봇 모터 조정 파운데이션 모델 Hover[9] 공개
  • 2024년 10월 : Physical intelligence, 범용 로봇 파운데이션 모델 π0 공개

4. 개발사[10]

  • 테슬라 : 대량생산 체제를 갖추고 있다고 평가되어 상용화와 가장 근접한 것으로 여겨지고 있다. 최신 개발 로봇인 테슬라 옵티머스 2세대는 휴머노이드 로봇 개발사 중에 가장 유려하고 섬세한 움직임을 보여준다.
  • Figure AI : OpenAI, 엔비디아, 마이크로소프트의 투자를 받고 있으며 특히 OpenAI와는 연구 협력관계로 피규어AI의 주력 로봇인 Figure01에 GPT가 적용되어 있다. 주력로봇인 Figure01은 움직임이 굉장히 빠르며 의사소통 능력도 다른 AI 로봇에 비해 월등하다. 오픈AI가 다른 인공지능 개발사보다 LLM분야에서 적어도 1년에서 2년 정도는 앞서 있다는 평가가 많으므로 유리한 고지를 점하고 있다고 평가된다.
  • 구글 : 구글이 구축한 RT-X 시스템은 멀티모달리티를 선보인 최초의 로봇 파운데이션 모델로, 이 말은 즉슨 디자인이 전혀 다른 로봇에 같은 인공지능을 심어도 무리없이 동작한다는 뜻이다. 이와 같은 능력은 다른 인공지능 로봇 제작사들이 시연한 바 없어 구글이 우위를 점하고 있다고 평가된다.
  • 엔비디아 : 로봇 훈련 플랫폼 구축을 위한 ‘프로젝트 그루트'를 발표하였다. 또한 엔비디아는 프로젝트 그루트의 일환으로‘토르 시스템온칩(SoC)’ 기반의 휴머노이드 로봇용 컴퓨터인 ‘젯슨 토르(Jetson Thor)’도 새롭게 공개한 바 있다. 24년 5월 로봇 훈련 시뮬레이터인 DrEureka를 공개, 본격적인 AI로봇 시대의 개막을 준비하고 있는듯한 모양새를 보여주고 있다.
  • 1X 테크놀로지 : 선보인 '이브'와 '네오'가 모두 E2E 인공지능 로봇이며 이브는 이미 가정용으로도 판매되고 있는 것으로 알려져있다. FigureAI와 마찬가지로 OpenAI의 투자를 받았으나 피규어AI에 OpenAI의투자가 집중되면서 기술협력과 관해서는 OpenAI와 결렬된 것으로 알려졌다.
  • Sanctuary AI : 자사 로봇인 피닉스(pheonix)가 end-to-end solution을 채택하고 있는 것으로 알려졌다. #
  • Unitree : 중국의 AI 로봇 기업이다. 중국 기업가운데 e2e 인공지능 시스템으로 동작하는 휴머노이드를 공개한 최초의 기업

5. 용어 사용의 혼선

세간의 인식과는 달리 2022년 이전에 나온 대부분의 로봇이나 AI들은 로봇이되 AI가 아니거나 반대로 AI이되 로봇이 아니었다.

가령 알파고 알파폴드와 같이 특정 분야에서 탈인간적 성능을 보여주는 약인공지능 ChatGPT 클로드 3와 같은 LLM기반 챗봇도 모두 인공지능이지만 로봇은 아니다. 대중들 사이에서 흔히 퍼진 밈이나 만화 등에서는 인공지능을 로봇으로 묘사하곤 한다. 하지만 인공지능 서비스는 대개 아무리 고기능이라고 할지라도 현실 세계와의 인터페이스(interface)가 존재하지 않는 단순 프로그램인 경우가 대부분이다.

반면 2020년대까지 제조업에서 흔히 쓰여온 로봇팔 따위의 물건들이나 식당에서 고객이 앉은 테이블로 음식을 전달하는 서빙 로봇 등은 로봇이지만 인공지능이 적용되지 않았으므로 AI로봇으로는 볼 수 없다. 우스개소리로 이러한 로봇들을 마치 지능이나 의식이 있는 양 묘사하는 경우도 있으나, 실제로 2020년대까지 출시된 대부분의 산업용, 대면 서비스용 로봇들은 인공지능을 탑재하고 있지 않으며 2024년 현재에도 AI로봇은 실험실에만 머물러 있는 수준이다.

휴머노이드와의 구분도 중요하다. 휴머노이드 로봇은 '인간의 형태'를 가진 로봇을 말하며, 지능형 로봇이냐 아니냐의 이슈와는 별개의 차원이다. 과거 한 시대를 풍미했던 아시모는 휴머노이드지만 인공지능 로봇은 아니며, 로봇개 아이보는 휴머노이드도 인공지능 로봇도 아니다. 반면 구글 RT-X가 적용된 로봇팔이나 OpenAI가 개발했던 닥틸은 휴머노이드가 아니지만 AI로봇이라고는 부를 수 있다. 피규어 01 테슬라 옵티머스는 AI로봇이자 동시에 인간형 휴머노이드다.

한편 AI를 엔드 투 엔드(end-to-end)로 구현하지 않았거나 그렇게 할 계획이 없는 보스턴 다이내믹스가 제작한 로봇들을 AI로봇으로 부를 수 있는지도 웹상에서 소소하게 논란이 되고 있다. # 보스턴 다이내믹스의 유압식 로봇들은 민첩성(agility)과 기동력, 동작의 자연스러움은 무척 뛰어나나 동작 하나하나를 리모컨으로 조종하거나 미리 설계해야한다는 점에서 구글, 테슬라, Figure AI가 개발하는 AI로봇에 비해서 자율성이 한참 떨어지는 양면성을 갖고 있다.

하지만 보스턴 다이내믹스 스팟에 한해서는 시각 정보 처리나 인간과의 대화, 커뮤니케이션 인터페이스 영역에서 LLM 시스템을 적용하거나 # 메타와 협업하는 등 # AI를 기존의 고전적인 로봇공학 노하우와 결합시키려는 다양한 시도를 하고 있다. 따라서 적어도 보스턴 다이내믹스의 스팟 또한 전형적인 AI로봇은 아니나 넓은 의미에서는 AI로봇이라고 분류할 수 있겠다.[11]

5.1. 非인공지능 로봇 개발사

기존의 인공지능 로봇 개발사들 중에 상당수는 로봇 개발에 있어 AI를 부분적으로만 적용하거나 아예 배제하고 있다. 특히 레거시 기업이나 표정과 커뮤니케이션을 중시한 대화형 로봇 개발사들이 인공지능 e2e를 채택하지 않아 실제 성능이 대단히 떨어지는 모양을 보인다. 하지만 인공지능 로봇의 퍼포먼스 진전이 고전적인 로봇공학의 산물인 비인공지능 로봇들보다 빠르므로 아래에 열거된 개발사들 역시 추후 인공지능을 전방위적으로 적용, 인공지능 운영체제를 탑재하여 개발방향을 바꾸거나 기존의 모델들이 SOTA 인공지능 로봇들에 밀려 개발에 실패하고 도태될 가능성이 높다. [12]
실제로 지난 엔비디아의 프로젝트 그루트 발표 현장에 올라온 로봇들 가운데 인공지능 시스템 e2e도입을 기존에 하지 않았던 개발사 측의 로봇들이 다수 포함되어있었는데[13], 추후 엔비디아의 로봇OS를 그대로 가져다 쓰거나 긴밀하게 협력할 가능성이 높게 점쳐진다.
  • 혼다 : 아시모의 개발사. 아시모의 경우 시연된 모든 동작이 하드 코딩 되어있는 것으로 알려져 있다.
  • 어질리티 로보틱스(Agility Robotics) : 아마존산업혁신펀드로부터 투자받았으며 개발 모델인 디지트(digit)가 유명하다.
  • 앱트로닉(Apptronik)
  • 푸리에 인텔리전스(Fourier Intelligence)
  • 핸슨 로보틱스(Hanson Robotics) : 자사 로봇인 '소피아'로 어그로를 많이 끌기는 했지만 사실 표정구현은 아메카나 디즈니 애니매트로닉스에 밀리고, LLM 대화 기능은 첨단 대화형 인공지능에 밀리는 등 여러모로 기술적으로는 많이 뒤쳐져있다. 소피아의 핵심기능은 OpenCog라고 하는 오픈소스 일반인공지능 알고리즘을 중심으로 하는데 이 오픈코그(Opencog)는 우리가 생각하는 딥러닝 AI가 아닌 상징추론(symbolic reasoning)기반이다. 딥러닝이 인공지능의 동의어로 받아들여지는 요즘에는 쓰지 않는 아키텍처로 본 페이지에서 언급된 로봇 가운데 아시모 페퍼 다음으로 가장 기술적으로 뒤떨어져 있다.[14]
  • 엔지니어드 아츠(Engineered arts) : 자연스러운 손동작, 얼굴 및 표정 움직임을 구현한 것이 인상적인 로봇 기업으로 몸동작과 얼굴표정은 인공지능을 적용한 트라이튬OS(TritiumOS)로 작동하는 것으로 알려져 있다. 다만 가장 유명한 제품인 아메카의 경우 LLM 컴포넌트는 GPT를 사용하는 것으로 알려져있어 트라이튬OS는 자연어 처리는 손대지 않고 t2t를 담당하는 GPT와 인터페이스를 통해서 연결되어있는 것으로 보인다. 따라서 추후 GPT 기능이 업그레이드 될 수록 의사소통도 더 자연스러워질 가능성이 높다. 핵심 기능 중 하나가 타사 제품 API를 통해 구현될 뿐 아니라 몸동작 구현도 e2e가 아니므로 세간의 생각과 다르게 "인공지능 로봇"으로 부르기에는 한계가 있다.
  • XPENG robotics : 전기차 생산업체인 XPENG motors의 로봇 사업부이다. 전기차 e2e구현에 사활을 걸고 있으므로 추후 자사 로봇에도 e2e인공지능 시스템을 구현할 가능성이 높아보인다.

6. 관련 문서

7. 둘러보기

인공지능
인공지능 기계학습 인공신경망 딥 러닝
인공지능 - 인공지능 구현을 위한 몇 가지 기술이 존재한다.
기계학습 - 많은 매개변수를 넣어주면 모델이 스스로 규칙을 학습하는 방식의 인공지능 구현 방법이다.
인공신경망 - 인간의 뉴런 구조를 본떠 만든 기계 학습 방법론이다.
딥 러닝 - 입력층과 출력층 사이에 있는 은닉층에 인공 뉴런을 여러 겹 쌓고 연결한 인공신경망 방법론 중 하나이다. 즉, 단일층이 아닌 실제 뇌처럼 다층 구조로 되어있다. 21세기에 와서는 (인공신경망=딥러닝)이라고 이해해도 무방하다.
인지 컴퓨팅 - 기계학습을 이용하여 특정한 인지적 과제를 해결할 수 있는 프로그램 또는 솔루션을 이야기한다.
뉴로모픽 컴퓨팅 - 인공 신경망을 하드웨어적으로 구현한 것이라고 생각하면 된다.



[1] RT-X는 파운데이션 모델로 하드웨어 기종명이 아니다. 딥마인드에서는 로봇 하드웨어 개발은 하지 않는다. [2] 바퀴로 운용된다. [3] 개발 중인 모델이며 이브와는 달리 이족보행을 하는 안드로이드이다. [4] SoC(Thor system-on-a-chip) 기반이다. [5] 엔비디아의 로보틱스 미들웨어다. [6] 공개영상에 나오는 협력사 로봇은 좌측부터 피규어 AI의 피규어 01, Unitree Robotics의 H1 V3, Apptronik의 아폴로, 어질리티 로보틱스의 디짓(Digit) 1세대, Sanctuary AI의 피닉스 7세대, 1X Technologies의 네오, Fourier Intelligence의 GR1, 보스턴 다이내믹스의 아틀라스 1세대, XPENG Robotics의 PX5이다. [7] 세간의 인식과는 달리 보스턴 다이나믹스의 아틀라스는 한 번도 공개적으로 ai시스템이 적용된 적이 없다. 스팟에 인공지능을 다각도로 적용하고 있으므로 아틀라스에도 인공지능이 적용되었을 개연성이 있으나 정말 그러한지는 미지수인 상황. [8] 제작사인 어질리티 로보틱스가 엔비디아의 프로젝트 그루트에 협력사로 참여함에 따라 엔비디아의 인공지능 기술을 적용받을 수 있게 되었으나, 인공지능이 어떻게 적용되는지 정확히 명시된 바가 없다. [9] Isaac으로 훈련되었으며 1.5M 패러미터 규모로 알려져 있다 [10] 여기에 열거된 개발사들은 협의의 인공지능 로봇을 개발하거나 로봇 파운데이션 딥러닝 모델을 개발하는 개발사들이다 [11] 문제는 보스턴 다이내믹스가 개발한 여러 로봇 가운데 유일하게 인공지능을 적용하는 시도를 보여준 로봇이자 양산 가능성을 보여준 스팟은 유압식 로봇이 아니라 모터구동식으로, 보스턴 다이내믹스 로봇들의 전매특허인 민첩성과 파워가 결여되어 있는데다 인공지능이 e2e로 적용되지 않아 진정한 의미의 인공지능 로봇이라고도 하기 어렵다는 것이다. 경쟁사 로봇이나 자사 유압식 로봇들과 비교하면 장점은 없는데 단점만 있는 것으로 여러모로 어중간하다고 할 수 있다. [12] 인공지능 로봇 이브(eve)의 개발사인 1X technologies도 본디 로봇을 먼저 개발해두고 인공지능과의 융합은 나중에 시도한 사례. [13] 본문에 열거된 기업 가운데는 어질리티 로보틱스와 보스턴 다이내믹스, 푸리에 인텔리전스, 앱트로닉, XPENG 그리고 본문에는 없지만 애니매트로닉스 개발로 유명한 디즈니 또한 포함되어있다. [14] 다만 소피아의 등장시점이 2016년으로 거의 10년 전이며 당시는 트랜스포머 아키텍처가 개발되기 전임을 감안할 필요는 있다. 당장 이세고 알파고 대국이 2016년이었다.

분류