로보틱스의 겨울이 가고 다시 봄이 올까요?

[제로가 직접 말아주는 딥테크 이야기] 6-2. 하드웨어에서 소프트웨어로
Kakao Ventures's avatar
Jul 14, 2025
로보틱스의 겨울이 가고 
다시 봄이 올까요?

안녕하세요. 카카오벤처스에서 딥테크 영역 투자를 담당하고 있는 제로입니다.

이 글은 제로가 직접 말아주는 딥테크 이야기 6-1화에서 이어집니다.


HW 중심에서 SW 중심의 로보틱스로

로봇이라는 하드웨어가 AI라는 소프트웨어를 만나면서, 로봇을 잘 만드는 것뿐만 아니라 잘 움직이게 하는 것도 중요해지고 있습니다. 그 중심에는 AI가 물리적 신체를 지닌 시스템에 탑재되어, 실제 세계를 인식하고 행동하는 존재로 진화하는 ‘Embodied AI’ 개념이 자리합니다.

그렇다면 AI가 물리적 세계를 이해하고, 로봇이 그 이해를 바탕으로 유의미하게 움직이기 위해선 어떤 조건이 선행되어야 할까요? 또 로봇에 탑재된 AI가 외부 환경과 상호작용하려면 어떤 데이터를 학습해야 하고, 그 데이터는 어떻게 만들어질까요?

오늘은 VLA 모델(Vision-Language-Action Model)이라는 새로운 키워드를 중심으로 또 한 번 전환점을 맞이하고 있는 로보틱스의 현재에 대해 이야기해보려 합니다. 특히 Transformer 기반의 대형 모델(Large Model)이 제안된 이후 로보틱스에 어떤 변화가 있었는지, 앞으로 극복해야 할 과제는 무엇인지 알아보겠습니다.


3. 범용 로봇의 시대

1화에서 인공지능(AI)과 로봇의 기술 발전 패턴을 비교하기도 했고, 이전 콘텐츠에서 AI를 자주 다뤄온 만큼 이런 질문을 해보려 합니다. 로봇에 있어 GPT3 Moment가 있다면 언제일까요?

2021년, 3대 컴퓨터 비전 학회 중 하나인 CVPR(Computer Vision and Pattern Recognition)에서 Embodied AI 워크샵이 진행되었는데요. 연구자들이 Computer Vision을 활용한 인지 기능(Perception)을 로봇 하드웨어에 탑재했을 때의 잠재적인 성능에 주목하면서, 로봇 역사상 세 번째 시대인 ‘범용 로봇의 시대’가 막을 올립니다.

CVPR

몇 가지 용어가 낯설게 느껴질 수 있어 하나씩 짚고 넘어가 보겠습니다.

📖

Computer Vision, Perception, Embodied AI란?

1. Computer Vision은 컴퓨터가 이미지나 영상을 분석하고 이해하는 기술을 뜻합니다. 사람의 눈으로 사물을 인식하듯, 컴퓨터가 카메라를 통해 들어온 시각 정보를 처리해 객체 탐지, 분류, 추적, 거리 측정 등 다양한 시각적 판단을 수행할 수 있도록 합니다.

2. Perception은 로봇이나 인공지능 시스템이 센서를 통해 수집한 다양한 정보를 종합해 주변 환경을 이해하고 해석하는 능력을 말합니다. Computer Vision은 Perception의 한 구성 요소이며, 그 외에도 LiDAR, IMU, 음성 등 다양한 센서 데이터를 통합해 상황 판단, 위치 추정, 의사결정의 기반을 제공합니다.

3. Embodied AI는 인공지능이 가상 또는 실제 물리적 환경 안에서 몸체(Embodiment)를 기반으로 상호작용하며 학습하고 행동하는 기술 분야입니다. 단순히 데이터를 처리하는 것을 넘어, 센서와 액추에이터를 통해 세계를 인식하고 직접 조작하며 문제를 해결하는 것이 특징인데요.

로봇팔, 자율주행 로봇, 시뮬레이션 에이전트 등이 대표적인 예입니다. 이들은 시각, 촉각, 동작 등을 통합적으로 활용해 목표 지향적인 행동을 수행합니다. Embodied AI는 강화학습, 멀티모달 학습, 3D 시뮬레이션 등의 기술과 긴밀하게 연결되어 있으며, AI가 물리적 세계를 이해하기 위한 핵심 영역으로 주목받고 있습니다.


하나를 가르치면 열을 아는 AI

오늘날 우리가 흔히 말하는 LLM이란 Large Language Model로, 거대한 사이즈의 텍스트 기반 언어 모델을 의미합니다. 하지만 CVPR에서 다뤄진 AI는 조금 달랐는데요. 바로 Video·Image와 Language 데이터를 섞어 넣을 수 있는 ViT 기반의 VLM(Vision Language Model)이었습니다. 이러한 VLM이 생성한 영상과 이미지 결과물을 보았을 때, AI가 물리 현상을 이해하기 시작했다는 것을 유추할 수 있었죠.

2024년 Sora AI에서 공개한 영상을 보면 더 쉽게 이해할 수 있는데요. 얼핏 보면 잘못 만들어진 영상처럼 보이지만, 사실 흥미로운 내용을 확인할 수 있는 결과물입니다. AI에게 물리적 법칙이나 규칙을 직접 가르친 적이 없는데도, 영상 학습만으로 물리 현상을 나름대로 이해하고 표현하게 되었기 때문이죠.

Sora AI basketball prompt
불타는 농구공

농구공이 골대에 부딪히면 그물망이 출렁거리고, 공이 튀어 오르는 모습을 AI가 자연스럽게 생성해 냅니다. 물론 튀어 오른 공이 골인하면서 그물망에 부딪혔을 때 불이 붙고 폭발하는 건 잘못 이해한 것이긴 하지만요. 하지만 이러한 결과물을 토대로 “AI도 학습시키기만 한다면 물리 현상을 충분히 이해할 수 있겠다”는 기대가 나오기 시작합니다.

사실 당연한 일이기도 합니다. 우리 인간도 뉴턴의 물리 법칙을 생각하고 계산하면서 물건을 들어 올리지 않는 것처럼요. 그냥 보고 경험하면서 자연스럽게 익히듯 AI도 마찬가지였던 거죠.

이러한 논의를 배경으로 Spatial Intelligence, Physical AI, AI4science 같은 키워드가 탄생했습니다. 전부 Computer Vision을 기반으로 했을 때의 물리 현상 이해 가능성에서 비롯된 건데요. 그리고 다시금 Transformer 모델의 뛰어난 성능이 입증되는 계기가 되기도 했습니다. (Transformer 또 너야?)


새로운 Foundation Model 트렌드의 시작 (feat. VLA 모델)

Vision-Language 모델에서 더 나아가, 로보틱스 영역에서는 로봇의 동작까지 제어하는 데이터인 Action까지 함께 넣은 VLA(Vision-Language-Action) 모델이 새롭게 제안되었는데요. 이로써 VLA 기반 Foundation Model 트렌드가 새롭게 시작됩니다. Large Action Model, World Model, Robot Foundation Model 모두 같은 맥락에서 등장한 기술이죠.

VLA 분야에는 Embodied AI 3대 대가라고 불리는 연구자들이 있습니다. 첼시 핀(Chelsea Finn), 세르게이 레빈(Sergey Levine), 피터 아벨(Pieter Abbeel)이 그 주인공인데요. 첼시 핀은 스탠퍼드대학교에서 로봇 학습과 메타러닝 연구를 이끌고 있으며, 세르게이 레빈은 UC 버클리의 로봇 강화학습 분야의 권위자이자, 첼시 핀과 더불어 Physical Intelligence의 공동 창업가로 활동하고 있죠. 피터 아벨은 UC 버클리 교수이자 Covariant의 공동창업자로, 이론 연구와 실무 적용을 모두 선도하고 있습니다.

이들을 중심으로 엔비디아의 Gear, UC버클리의 BAIR Lab 등 프론티어 연구 그룹이 구성되었습니다.

Embodied AI의 대가는? Chelsea Finn, Sergey Levine, Pieter Abbeel
왼쪽에서부터 차례로 Chelsea Finn, Sergey Levine, Pieter Abbeel

미국에서는 바로 다음 해인 2022년부터 VLA 모델 분야에 막대한 투자가 이루어지기 시작합니다. Figure AI는 2022년 설립되어 시드라운드 10M 달러를 투자받은 후, 아주 빠른 속도로 시리즈 A, B 라운드를 진행했습니다. OpenAI, NVIDIA, 제프 베조스, 마이크로소프트, 인텔, 아크인베스트까지 쟁쟁한 투자자들이 참여했죠.

이후 등장한 Skild AI를 비롯해 여러 스타트업은 이전보다 더 큰 규모의 투자를, 더 짧은 라운드로 받으며 가파르게 성장했는데요. 특히 2024년 설립된 Physical Intelligence의 경우, 앞서 언급한 3대 대가 중 2명이 공동창업자로 참여하면서 눈부신 성과를 보여주었습니다. Physical Intelligence에서 최근 공개한 π 0.5는 NVIDIA의 GR00T N1과 함께 Frontier 모델로 평가받고 있습니다.

Embodied AI 스타트업 투자 트렌드 2022~2024
Embodied AI 스타트업 투자 2022~2024 ⓒ 카카오벤처스

앞서 소개한 Figure, SKILD AI, Physical Intelligence 같은 스타트업은 당시만 해도 어디까지나 가설과 비전, 훌륭한 팀을 기반으로 투자를 유치한 단계였는데요. 코어 기술의 개발과 구현 가능성은 아직 검증 중이었고, 여전히 물음표가 따라붙던 시기였습니다.

그 물음표에 어느 정도 대답을 해준 것이 바로 2023년 Open-X Embodiment 프로젝트에서 발표된 RT-X 모델이었습니다. 기술 구현 가능성을 증명하면서 “정말 그 시대가 오겠구나”라는 확신을 주었기 때문입니다.

Open-X Embodiment 프로젝트는 전 세계 석학 291명이 함께 진행한 초대형 로봇 학습 데이터셋 프로젝트로, 구글, UC버클리, 카네기멜론, 스탠퍼드, KAIST 등 유명 연구기관 25곳이 참여했습니다. RT-1, RT-2 모델은 이 프로젝트를 통해 만든 데이터셋을 학습했고, 실제 환경에서도 잘 작동하는 로봇 기술의 구현 가능성을 증명했습니다. 가설에서 현실로 한 걸음 더 나아간 순간이었죠.

Open-X Embodiment
Open-X Embodiment

로보틱스의 새로운 파도

그리고 2024년, 드디어 대중들도 로보틱스의 새로운 파도를 맞닥뜨리게 됩니다. 그 시작은 엔비디아 GTC 2024였습니다. 엔비디아는 당시 개발 중이었던 휴머노이드 로봇 Project Gr00t를 발표합니다. 테슬라는 몇 달이 지나고 실제 테슬라 공장 작업 현장에서 여러 업무를 수행하는 Optimus의 영상을 공개했고, OpenAI는 Figure와 협력해 휴머노이드 로봇 시연을 선보였는데요. R&D 단계에서만 이루어지던 움직임들이 비로소 수면 위로 올라온 겁니다.

Tesla Optimus 로봇
© Tesla Optimus

빅테크가 로보틱스로 본격적으로 영역을 확장하는 움직임은 다른 기업들에도 영향을 미쳤는데요. 특히 한국의 제조 기업들도 로보틱스 분야에 관심을 두면서, “우리도 로보틱스 분야에 새롭게 진출할 수 있을까?” 또는 “현재 제조업 내에서 로보틱스 기술을 도입할 만한 영역이 있을까?” 같은 고민들이 시작되었습니다.

특히 한국의 제조 기업에게는 로보틱스가 큰 기회라고 보고 있는데요. 로봇을 제조 공정에 직접 활용할 수 있다는 점에서 고객사가 되기도 하지만, 로봇은 대형 가전제품과 자동차 사이에 위치하며 양산 기술을 필요로 한다는 점에서 유리한 플레이어로도 자리매김할 수 있기 때문입니다.

Figure AI 로봇
© Figure

4. 과제할 결심

로봇과 함께하게 될 미래를 상상하며 이렇게 멋진 피크닉 그림을 한 번 그려보았는데요. 로봇이 인간을 대신해 어려운 작업을 수행하고, 인간은 여가 생활을 즐기며 고부가가치 노동에 집중하는 ‘멋진 신세계’가 과연 올까 상상해 본다면, 해결해야 할 과제가 좀 남아 있습니다.

아직 멀었습니다

1) 또다시 데이터가 부족하다

초거대 VLA 모델을 학습시키려면 엄청난 양의 데이터가 필요합니다. 로보틱스도 결국 LLM이 겪었던 히스토리를 그대로 반복하고 있어서, 다시 한번 데이터 양산과 확보라는 과제를 해결해야 합니다.

사실, 앞서 소개한 Open-X Embodiment가 이런 데이터 부족 문제를 해결하기 위해 진행된 프로젝트였는데요. 전 세계에서 가장 큰 규모의 프로젝트임에도 불구하고, 생산한 데이터 양은 GPT-2 수준에 불과합니다.

GPT-4 스케일 도달률을 기준으로 보면, 현재 확보한 데이터는 단 1%밖에 되지 않는 상황입니다. 그 이유는 로봇 데이터를 만드는 방법과 관련되어 있는데, 크게 두 가지입니다. 첫 번째는 시뮬레이션으로 만드는 방법, 두 번째는 사람이 직접 로봇을 조작하며 텔레오퍼레이션(Teleoperation) 방식을 활용해 만드는 방법입니다.

시뮬레이션 데이터는 양은 많이 만들 수 있지만 질이 떨어지고, 텔레오퍼레이션은 질은 좋지만 사람이 직접 만들어야 하니 양이 적습니다. 규모를 잡을 것인지, 품질을 잡을 것인지 둘 중 하나를 우선으로 선택해야 하는 Trade-off 상황이 발생하는 거죠. 결국 거대한 VLA 모델을 학습시키기 위해 양과 질을 전부 잡는 새로운 Vision, Language, Action 데이터셋이 필요한 건데, 이 두 마리 토끼를 단기간 내 전부 잡을 수 있는 효율적인 방법론이 아직까지는 부족했던 상황입니다.

텔레오퍼레이션 방식은 이렇습니다

2) 아무도 로봇을 제대로 팔아본 적이 없다

휴머노이드 로봇연구 개발부터 상품화(Commoditize)까지 현재 진행형인 분야입니다. 자연히 대량 생산과 유통을 성공적으로 해본 기업은 아직까지 없는데요. 스타트업은 물론, 현재 휴머노이드 로봇에 뛰어든 빅테크 기업도 전부 가내 수공업 수준으로 생산하는 것이 현주소입니다. 향후에는 수만 대에서 수십만 대 단위의 대량 생산을 이뤄내야 할 시점이 올 텐데, 이를 뒷받침할 대량 생산에 대한 노하우나 경험, 인프라도 아직 준비되지 않은 상황입니다.

로봇을 판매하고 유통하는 과정에서의 CS 역시 미비한 것이 현실입니다. 대당 수천만 원에 달하는 고가의 장비인 만큼, 맞춤형 커스터마이징은 물론 판매 이후의 배송, 설치, 수리까지 전 과정에 걸친 서비스가 필요합니다. 하지만 현재 생산 수준이 사실상 가내수공업에 가깝기 때문에, 인력(Man Power) 투입이 높은 구조를 벗어나지 못하고 있습니다. 예컨대, 해외에 수출한 로봇의 수리가 필요한 경우, 해외 현지에 수리 인력을 파견하거나, 고가의 로봇 장비를 다시 본국으로 회수해 수리하는 원시적인 방식이 여전히 사용되고 있죠.


3) 아직은 기술 연구와 완성도가 아쉽다

기술 연구와 완성도 역시 아직 부족합니다. 특히 Cross Embodiment, Unseen Task 등 영역의 성능이 아직 부족한데요. 하나씩 살펴보겠습니다.

Cross EmbodimentAI가 들어가는 '몸'이 바뀌면 성능도 함께 바뀌는 문제를 뜻합니다. 쉽게는 7 DoF를 가진 로봇에서 높은 성능을 보이던 AI가 12 DoF 로봇에서는 제대로 작동하지 않게 되는 상황을 떠올릴 수 있겠죠. 이렇듯 Cross Embodiment를 극복해야 진정한 범용성을 확보할 수 있습니다.

다음으로, Unseen Task한 번도 경험해보지 못한 Task도 잘 수행해야 하는 과제를 뜻하는데요. 이것도 성능이 아직 아쉽습니다. 추가로 mm 단위의 정밀한 움직임(mm-level motion), Perception·Mobility·Manipulation의 동시 수행, 배터리 용량의 한계 등 다양한 기술적 아쉬움이 남아있는 상황입니다.

📖

DoF란?

DoF(Degree of Freedom)란 로봇이 공간 내에서 독립적으로 움직일 수 있는 관절의 방향 또는 축의 개수를 의미합니다. 로봇이 특정 작업을 수행하기 위해 위치와 자세를 조정할 수 있는 능력의 척도로 사용됩니다. 보다 많은 DoF를 갖춘 로봇일수록 복잡하고 섬세한 작업을 수행할 수 있습니다.


결론적으로, 로보틱스가 순항하기 위해서는 대량 생산 기반의 가격 경쟁력, 높은 수준의 전산학 기술, 그리고 압도적인 자본 투입 이 세 박자가 모두 맞춰져야 합니다. 다양한 국가가 도전하고 있지만, 각각 조금씩 아쉬운 부분들을 갖고 있는데요.

로보틱스 순항을 위한 조건 3가지는?
© 카카오벤처스
로보틱스 과제를 당장 해결할 수 있는 유일한 국가는 중국
© 카카오벤처스

명확한 교집합을 갖고 있는 국가는 사실 많지 않은데, 저는 이 3박자를 지금 당장 수행할 수 있는 유일한 국가가 바로 중국이라고 생각합니다. (두둥)

이번 시리즈의 마지막 3화에서는 Made in China를 얕잡아볼 수 없는 이유, 멈출 수 없는 중국의 로봇 굴기에 대해 다뤄보겠습니다. 많은 관심 부탁드립니다!

Share article
더 많은 인사이트가 여러분을 기다리고 있어요.
앞으로도 함께할까요?

kakaoventures blog