AI가 세상을 읽는 방식

웨어러블에서 벌어지는 입력 모달리티 경쟁

Jun 24, 2026

Contents

AI 입력 경쟁이 몸 위로 향하는 이유 무엇을, 어떻게 읽기 시작했을까 무엇을 읽는가 입력이 어떻게 시작되는가 사람들이 과연 데이터를 내어줄까?(1) 일단 몸에 올라타야 데이터가 모인다 (2) 액세서리가 된 스마트폰, 그렇다면 스마트 안경은?(3) 패션도 풀 수 없는 문제

3줄로 미리 보는 오늘의 인사이트
AI에게 더 많은 판단을 맡길수록, AI 경쟁의 초점은 모델의 성능을 넘어 사용자의 맥락을 얼마나 잘 받아들이는가로 확장되고 있습니다.
웨어러블은 시선·움직임·생체신호처럼 기존 디지털 기록으로는 포착하기 어려운 ‘현재의 맥락’을 수집하며 새로운 입력 인터페이스의 중심으로 떠오르고 있는데요.
결국 B2C AI 디바이스 시장에서는 사람들이 자연스럽게 착용하고 신뢰하며 자신의 데이터를 활용할 수 있는 기술이 해자를 구축할 것입니다.

오랫동안 컴퓨터의 입력 방식은 키보드와 마우스에서 벗어나지 않았습니다. 스마트폰이 터치스크린과 음성 인식이라는 새로운 방식을 대중화했지만, 사용자가 의도적으로 입력해야만 정보가 쌓인다는 점에서 본질은 크게 달라지지 않았죠.

그런데 AI에 더 많은 판단을 맡기게 되자, 입력값이 지니는 무게에도 변화가 생겼습니다. 특히 웨어러블 디바이스는 기존에 쌓인 기록으로 포착하기 어려운 현재의 맥락을 수집할 수 있다는 점에서 핵심 입력 인터페이스로 떠올랐는데요.

입력 모달리티가 빠르게 분화하는 지금, 새로운 기술이 실제 일상에 자리 잡기 위해서는 무엇이 필요할까요?

바로 기술의 벽과 사람의 벽이라는 두 가지 병목을 넘어야 합니다.

💡

입력 모달리티란?

AI나 컴퓨터가 정보를 받아들이는 형식을 말합니다. 텍스트·이미지·음성뿐 아니라 시선, 움직임, 생체신호처럼 센서를 통해 수집되는 다양한 신호도 넓은 의미의 입력 모달리티에 포함됩니다.

AI 입력 경쟁이 몸 위로 향하는 이유

AI가 대중화되면서 사람들이 가장 먼저 주목한 건 산출물이었습니다. 대량의 텍스트를 몇 초 만에 써내려가고, 유의미한 코드를 빠르게 생성하는 모습은 말 그대로 혁신적이었죠. 이 시기의 AI는 결과물의 정확도와 완성도, 창의성을 높여주는 도구로 여겨졌습니다.

이후 LLM의 기본적인 생성 능력이 빠르게 발전하면서, 결과물의 품질이 모델의 성능뿐만 아니라 어떤 맥락을 입력하느냐에 따라 크게 달라진다는 점이 중요해졌는데요. 원하는 결과를 얻기 위해 사람들은 업무의 목적과 배경, 이전 문서와 대화 기록은 물론 사용자의 취향과 습관까지 더 넓은 범위의 정보를 전달하기 시작했습니다.

최근에는 AI가 업무를 보조하는 도구를 넘어 개인의 일상을 조율하는 역할까지 맡는 경우도 생겼습니다. 그럴수록 AI는 사용자가 지금 무엇을 보고 있는지, 어떻게 움직이고 있는지, 어떤 상태에 있는지처럼 더 연속적이고 내밀한 맥락을 필요로 합니다.

이에 따라 사람들은 AI가 자신을 더 잘 이해하고 상황에 맞는 판단을 내릴 수 있도록, 자신에 관한 더 많은 정보와 맥락을 제공하고 있습니다.

동시에 AI는 입력으로 받아들일 수 있는 데이터의 범위 자체를 넓히고 있습니다. 이미지나 음성, 각종 센서 신호를 처리하는 기술이 이전에 없었던 건 아닙니다. 하지만 정확도가 낮았고 환경에 따라 결과가 크게 흔들려, 일상적인 서비스에 활용하기에는 비용 대비 효용이 충분하지 않았는데요.

지금 AI는 이 문턱을 낮추고 있습니다. 비정형적이고 복잡한 데이터에서도 패턴을 찾아낼 수 있게 되면서, 과거에는 측정하더라도 안정적으로 해석하기 어려웠던 신호들이 활용 가능한 데이터로 바뀌기 시작한 것입니다. 시선과 움직임, 생체신호와 뇌파까지 새로운 입력 모달리티에 경제성이 생기고 있습니다.

이 두 가지 변화가 맞물리며 자연스럽게 주목받는 영역이 웨어러블 디바이스입니다. 시선을 읽으려면 얼굴 가까이에, 움직임을 읽으려면 손목에, 생체신호를 읽으려면 피부에 기기가 위치해야 합니다. 스마트폰처럼 주머니 안에 있는 기기만으로는 포착하기 어려운 신호들이죠.

AI가 필요로 하는 맥락의 상당 부분이 몸과 그 주변에서 발생하는 만큼, 웨어러블은 다음 입력 경쟁의 핵심 무대가 되고 있습니다.

'몸 위로 올라온 입력 인터페이스'를 제목으로 한 인포그래픽. 흰색 인체 실루엣 위에 EEG 헤드셋, AI 글래스, AI 이어버드, 스마트워치, 스마트링, 뉴럴 밴드 등 6가지 웨어러블 디바이스가 신체 각 부위에 표시되며, 각각의 데이터 수집 기능이 라벨로 설명됨.

무엇을, 어떻게 읽기 시작했을까

모든 입력 기술이 같은 종류의 정보를 만들어내는 것은 아닙니다. 음성은 사용자가 표현한 의도를 전달하고, 카메라는 주변 환경을 보여주며, 생체신호는 사용자가 직접 설명하지 않은 상태까지 포착하죠.

입력 기술의 지형을 이해하려면 두 가지 기준에서 살펴봐야 합니다.

먼저 AI가 어떤 신호를 읽는가입니다. 이는 AI가 얻는 맥락의 종류와 깊이를 결정합니다. 또다른 기준은 그 신호를 수집하기 위해 사용자가 얼마나 개입해야 하는가입니다. 이는 제품의 사용 방식과 데이터 통제의 성격을 결정합니다.

무엇을 읽는가

❶ 청각 계열: 사용자의 의도와 주변 상황을 듣는다

마이크를 통해 음성과 주변 소리를 포착하는 방식입니다. 언어를 전달한다는 점에서 텍스트와 가장 가까운 방식이고, 스마트폰과 스마트 스피커, 이어버드 등을 통해 이미 널리 상용화되었죠.

웨어러블 환경에서는 마이크 소형화, 소음 제거, 화자 구분, 온디바이스 음성 인식 기술 등이 함께 발전하면서 활용 범위가 넓어지고 있는데요. 사용자가 화면을 보거나 손을 쓰지 않고도 기기를 제어할 수 있기 때문에, 웨어러블 입력 가운데 비교적 상용화가 앞선 영역이기도 합니다.

다만 음성 입력은 사용자가 말로 표현한 정보에 의존합니다. 주변 소리에서 상황을 추론할 수는 있지만, 사용자의 상태나 행동 의도를 직접 파악하는 데에는 한계가 있습니다. 소음과 지속적인 청취에 대한 거부감도 아직까지는 해결해야 할 과제로 남아 있습니다.

❷ 시각 계열: 사용자의 관점과 주변 환경을 본다

카메라는 사용자 주변의 사람과 사물, 공간을 이미지 데이터로 바꿉니다. AI가 사용자의 설명에만 의존하지 않고 현실의 맥락을 직접 받아들일 수 있다는 점에서 정보량이 큰 입력 방식이죠.

여기에 시선 추적이 결합되면 AI는 주변에 무엇이 있는지를 넘어, 사용자가 그중 무엇을 보고 있는지까지 파악할 수 있습니다. 카메라가 환경을 읽는다면 시선 추적은 사용자의 관심을 읽는 셈입니다.

카메라 기술 자체는 이미 성숙했지만, 웨어러블에서는 배터리와 발열, 소형화, 실시간 연산이 여전히 병목으로 남아 있습니다. 또한 착용자의 주변에 있는 제3자까지 수집 대상이 될 수 있다는 점에서 사회적 민감도가 상당히 높은 채널이기도 합니다.

오후 6:18 Apple Vision Pro 내부 정면 사진. 양쪽 렌즈 안쪽에 내장된 아이트래킹 카메라 3개가 노란색 라벨로 표시됨. 실버 프레임과 검정 패브릭 소재의 페이스 쿠션이 보임. — TechInsights | Apple Vision Pro

❸ 동작 계열: 사용자의 행동을 읽는다

가속도계와 자이로스코프, IMU 같은 센서는 몸의 방향과 움직임을 수치로 변환합니다. 걸음 수와 운동량, 낙상 여부처럼 비교적 큰 움직임은 스마트워치를 통해 이미 일상에 들어왔습니다.

최근에는 손목의 회전이나 손가락의 미세한 움직임까지 구분하는 방향으로 기술이 발전하고 있는데요. 별도의 컨트롤러를 잡지 않아도 몸의 움직임 자체가 명령어가 됩니다.

동작 입력은 직관적이고 학습 부담이 낮다는 장점이 있습니다. 반면 일상적인 움직임과 의도적인 명령을 구분해야 하고, 작은 오작동도 사용 경험을 크게 해칠 수 있다는 어려움도 여전히 존재합니다.

❹ 생리·신경 계열: 사용자가 설명하지 않은 상태를 읽는다

생리·신경 입력은 심박과 체온, 혈중산소, 근전도, 뇌파처럼 몸에서 발생하는 신호를 포착하는 방식입니다. 음성과 시선이 사용자의 표현과 행동을 읽는다면, 생리·신경 신호는 사용자가 직접 언어화하지 않은 상태까지 보여줍니다.

심박과 수면, 체온 정보는 스마트워치와 스마트링을 통해 이미 상용화됐습니다. 근전도는 손가락의 미세한 움직임에서 발생하는 근육 신호를 읽어 새로운 조작 방식으로 활용되고 있습니다. 의료·연구 영역에서 출발한 뇌파 기술은 집중도와 피로도 같은 상태를 추정하는 데 활용되고 있으며, BCI는 신경 활동을 기기 제어와 연결하는 단계까지 나아가고 있습니다. 다만 개인차와 외부 노이즈가 커 안정적으로 신호를 해석하는 일은 여전히 어렵습니다.

이처럼 신체 내부에 가까운 신호일수록 AI가 얻는 정보의 깊이는 커지지만, 데이터의 민감도와 해석의 난도도 함께 높아집니다.

입력이 어떻게 시작되는가

같은 채널이라도 데이터를 수집하는 방식에 따라 제품 경험은 달라집니다. 음성 인식은 버튼을 누른 뒤 말할 수 있고, 호출어를 기다리는 상태로 존재할 수 있습니다. 카메라도 사용자가 촬영할 때만 작동할 수 있고, 주변 환경을 지속적으로 감지하도록 설계될 수 있습니다.

따라서 입력 기술은 채널뿐 아니라 사용자가 수집 과정에 얼마나 개입하는지에 따라 나누어볼 필요가 있습니다.

❶ 명시적 입력: 사용자가 직접 시작한다

사용자가 타이핑하거나 마이크 버튼을 누르고 말하거나, 카메라를 직접 작동하는 방식입니다. 입력의 시작과 종료가 명확하고, 사용자가 높은 통제권을 갖죠.

지금까지 대부분의 디지털 인터페이스가 이 방식으로 작동했습니다. 의도가 분명하다는 장점이 있지만, 사용할 때마다 사용자가 직접 행동해야 한다는 점에서 AI가 사용자의 맥락을 축적하기는 어렵습니다.

❷ 상시 대기형 입력: 기기가 맥락을 기다린다

기기가 주변 신호를 감지할 준비를 하고 있다가 특정 호출어, 시선, 제스처를 계기로 작동하는 방식입니다. 사용자는 매번 화면을 열거나 기기를 손에 들지 않아도 됩니다.

스마트 글래스와 AI 이어버드가 이 방식에 가까워지고 있습니다. 명시적 입력보다 상호작용이 자연스럽지만, 기기가 언제 어떤 신호를 감지하고 있는지 사용자가 명확히 인식하기 어렵다는 문제가 생길 수 있습니다.

❸ 연속 측정형 입력: 별도의 조작 없이 데이터가 쌓인다

착용 이후 별도의 행동 없이 데이터가 지속적으로 축적되는 방식입니다. 스마트링의 심박과 수면 측정, 스마트워치의 활동 기록 등이 대표적인데요.

한 번의 명령이나 순간적인 관찰이 아니라 장기간 누적된 맥락을 확보할 수 있기 때문에, AI가 사용자의 변화를 시간의 흐름에 따라 이해할 수 있습니다.

다만 사용자가 매 순간 무엇이 수집되는지 알아차리기 어렵고, 민감한 데이터가 지속적으로 쌓인다는 점에서 통제권과 신뢰의 문제가 중요해지는 영역이기도 합니다.

정리하자면, 같은 웨어러블이라도 어떤 신호를 읽고 얼마나 지속적으로 수집하는지에 따라 얻을 수 있는 맥락은 달라집니다. 그리고 입력이 몸에 가까워지고 자동화될수록, 기술적 난도뿐 아니라 사용자가 감수해야 할 부담도 함께 커집니다.

사람들이 과연 데이터를 내어줄까?

기술적으로 신호를 읽을 수 있게 됐더라도, 데이터가 저절로 쌓이는 것은 아닙니다. 사용자가 기기를 몸에 착용하고 일상적으로 사용해야 하기 때문이죠.

따라서 입력 모달리티의 경쟁에서는 성능만으로 승자가 결정되지 않습니다. 몸에 올라갈 수 있는지, 계속 사용할 이유가 있는지, 나아가 데이터를 믿고 맡길 수 있는지 역시 중요한 조건입니다.

(1) 일단 몸에 올라타야 데이터가 모인다

시선을 읽으려면 얼굴에, 움직임을 읽으려면 손목에, 생체신호를 읽으려면 피부 가까이에 기기가 위치해야 합니다. 하지만 사용자는 기술적 효용만으로 웨어러블을 선택하지 않습니다. 무게, 착용감, 배터리, 디자인 모두 사용 여부를 결정하는 핵심 요소입니다.

기술이 작동하는 것과 사람들이 기꺼이 착용하는 것은 전혀 다른 문제라는 걸, Google Glass의 실패에서 한 차례 확인했습니다. Google Glass는 주변 사람들이 촬영 여부를 쉽게 파악하기 어렵다는 우려를 낳았고, 낯선 디자인과 불분명한 사용 효용 역시 대중 소비재로 자리 잡는 데 걸림돌이 됐습니다.

(2) 액세서리가 된 스마트폰, 그렇다면 스마트 안경은?

그렇다면 웨어러블 디바이스는 어떻게 사람들의 일상에 파고들 수 있을까요? 그 높은 장벽을 넘을 첫 번째 힌트는 의외로 우리 손안의 스마트폰에서 찾을 수 있습니다.

스마트폰은 기능적 도구로 출발했지만 지금은 다른 방식으로도 활용되고 있습니다. 자기가 쓰는 기종이나 케이스, 심지어 잠금화면까지 모두 자기표현의 수단이 되었죠. 이처럼 테크 디바이스도 충분히 패션 아이템이 될 수 있습니다. 오히려 웨어러블은 몸에 드러난 채 착용되기 때문에 효용과 디자인을 처음부터 동시에 증명해야 합니다.

'주요 국가별 7월 1위 테마'를 제목으로 한 인포그래픽. 스마트폰 3대가 나란히 배치되어 있으며, 각각 한국·미국(파란색 계열의 체크 패턴과 하트 아이콘), 일본(여름 해변 사진 배경의 미니멀한 구성), 태국(핑크색 배경에 3D 젤리 스타일 아이콘) 홈 화면 테마를 보여줌. — 포토위젯 | 사람들은 이미 폰 외부뿐만 아니라 내부까지도 자신의 개성을 드러내기 위해 쓰고 있습니다

메타는 Ray-Ban이라는 패션 브랜드를 적극 활용했습니다. 기술을 기존의 트렌디한 제품에 결합해, 테크와 패션을 모두 사로잡는 차세대 액세서리로 새롭게 포지셔닝한 것입니다.

마찬가지로 Oura Ring은 생체신호를 측정하는 센서를 반지라는 일상적인 형태에 담았습니다. 이들은 사용자가 원래 착용하던 물건의 문법을 활용해 기술의 이질감을 낮췄습니다.

Ray-Ban과 Meta 로고가 표시된 AI 스마트 글래스 광고 이미지. 검정 가죽 재킷을 입은 모델이 검정 프레임의 Ray-Ban Meta 스마트 글래스를 착용하고 있음. — Meta | 트렌디한 이미지의 모델 ‘제니’가 메타 AI 글래스를 착용하고 있는 모습

결국 장벽을 낮추려면 사람들이 기꺼이 매일 몸에 걸치고 싶어지느냐가 중요합니다. 즉, 패션 아이템이 될 수 있어야 하죠.

(3) 패션도 풀 수 없는 문제

사실 이러한 방식에도 한계가 있습니다. 착용을 유도할 수 있지만, 데이터 그 자체를 개방하도록 설득할 수는 없죠. 이 문제는 두 층위로 나누어 볼 수 있습니다.

먼저 ❶ 착용자 본인의 데이터입니다. 심박, 위치, 음성, 시선 기록이 어디에 저장되고 어떻게 활용되는지에 따라 사용자의 수용도는 달라집니다.

다음은 ❷ 제3자의 데이터입니다. 카메라와 마이크가 달린 글래스는 착용자의 시야에 들어오는 불특정 타인까지 수집 대상으로 만들 수 있는데요. Google Glass가 마주했던 또다른 난관 역시 바로 이 지점이었습니다. 착용자 본인의 동의와 별개로, 주변 사람들의 동의를 어떻게 구조화할 것인가는 아직 풀리지 않은 문제입니다.

따라서 앞으로는 센서 성능뿐 아니라 데이터가 기기 안에서 처리되는지, 촬영 여부가 주변에 명확히 표시되는지, 사용자가 저장 범위와 보관 기간을 통제할 수 있는지가 제품 경쟁력의 일부가 될 가능성이 높습니다.

입력 모달리티의 발전은 AI가 인간과 현실을 이해하는 방식을 근본적으로 바꾸고 있습니다. 텍스트와 음성을 넘어 시선, 움직임, 생체신호까지 데이터가 되면서 AI가 얻는 맥락의 해상도는 점점 높아지고 있죠.

그러나 가장 깊은 신호를 읽는 기술이 반드시 시장의 표준이 되는 것은 아닙니다. 기술적으로 안정적으로 작동해야 하고, 사용자가 매일 착용할 수 있어야 하며, 데이터가 어떻게 수집되고 활용되는지에 대한 신뢰 역시 확보해야 합니다.

결국 입력 모달리티 경쟁의 승자는 가장 많은 데이터를 수집하는 기술이 아니라, 사용자가 자연스럽게 곁에 두면서도 자신의 데이터를 안전하게 활용할 수 있게 만드는 기술일 것입니다.

AI가 세상을 더 잘 보기 시작할수록, 기술 기업의 경쟁은 센서의 정확도를 넘어 인간의 몸과 일상에 기술이 들어오는 방식을 설계하는 싸움으로 확장될 것입니다. 카카오벤처스는 더 자연스럽고 신뢰할 수 있는 인터페이스를 만들어갈 창업가들의 도전을 응원합니다.

🚀

About Kakao Ventures

카카오벤처스는 ICT 서비스, 딥테크, 게임, 디지털 헬스케어, 뷰티 분야에서 필요한 미래를 앞당기는 스타트업에 투자하는 벤처 캐피탈입니다. 초기 스타트업의 든든한 파트너로서, 세상의 문제를 해결하려는 창업가들에게 투자합니다.

Editor Chloe

Contents

KV Insights 트렌드

AI가 세상을 읽는 방식

웨어러블에서 벌어지는 입력 모달리티 경쟁

Kakao Ventures

Jun 24, 2026

Contents

3줄로 미리 보는 오늘의 인사이트
AI에게 더 많은 판단을 맡길수록, AI 경쟁의 초점은 모델의 성능을 넘어 사용자의 맥락을 얼마나 잘 받아들이는가로 확장되고 있습니다.
웨어러블은 시선·움직임·생체신호처럼 기존 디지털 기록으로는 포착하기 어려운 ‘현재의 맥락’을 수집하며 새로운 입력 인터페이스의 중심으로 떠오르고 있는데요.
결국 B2C AI 디바이스 시장에서는 사람들이 자연스럽게 착용하고 신뢰하며 자신의 데이터를 활용할 수 있는 기술이 해자를 구축할 것입니다.

입력 모달리티가 빠르게 분화하는 지금, 새로운 기술이 실제 일상에 자리 잡기 위해서는 무엇이 필요할까요?

바로 기술의 벽과 사람의 벽이라는 두 가지 병목을 넘어야 합니다.

💡

입력 모달리티란?

AI 입력 경쟁이 몸 위로 향하는 이유

이에 따라 사람들은 AI가 자신을 더 잘 이해하고 상황에 맞는 판단을 내릴 수 있도록, 자신에 관한 더 많은 정보와 맥락을 제공하고 있습니다.

AI가 필요로 하는 맥락의 상당 부분이 몸과 그 주변에서 발생하는 만큼, 웨어러블은 다음 입력 경쟁의 핵심 무대가 되고 있습니다.

무엇을, 어떻게 읽기 시작했을까

입력 기술의 지형을 이해하려면 두 가지 기준에서 살펴봐야 합니다.

무엇을 읽는가

❶ 청각 계열: 사용자의 의도와 주변 상황을 듣는다

❷ 시각 계열: 사용자의 관점과 주변 환경을 본다

❸ 동작 계열: 사용자의 행동을 읽는다

❹ 생리·신경 계열: 사용자가 설명하지 않은 상태를 읽는다

이처럼 신체 내부에 가까운 신호일수록 AI가 얻는 정보의 깊이는 커지지만, 데이터의 민감도와 해석의 난도도 함께 높아집니다.

입력이 어떻게 시작되는가

따라서 입력 기술은 채널뿐 아니라 사용자가 수집 과정에 얼마나 개입하는지에 따라 나누어볼 필요가 있습니다.

❶ 명시적 입력: 사용자가 직접 시작한다

❷ 상시 대기형 입력: 기기가 맥락을 기다린다

❸ 연속 측정형 입력: 별도의 조작 없이 데이터가 쌓인다

착용 이후 별도의 행동 없이 데이터가 지속적으로 축적되는 방식입니다. 스마트링의 심박과 수면 측정, 스마트워치의 활동 기록 등이 대표적인데요.

사람들이 과연 데이터를 내어줄까?

(1) 일단 몸에 올라타야 데이터가 모인다

(2) 액세서리가 된 스마트폰, 그렇다면 스마트 안경은?

결국 장벽을 낮추려면 사람들이 기꺼이 매일 몸에 걸치고 싶어지느냐가 중요합니다. 즉, 패션 아이템이 될 수 있어야 하죠.

(3) 패션도 풀 수 없는 문제

먼저 ❶ 착용자 본인의 데이터입니다. 심박, 위치, 음성, 시선 기록이 어디에 저장되고 어떻게 활용되는지에 따라 사용자의 수용도는 달라집니다.

🚀

About Kakao Ventures

Editor Chloe

Contents