logo
|
Blog
  • Newsletter
  • Partners'
  • Insight Book 2026
  • Youtube
  • 🌐 EN
KV Insights트렌드

버티컬 데이터 개방의 티핑 포인트가 올까?

AI 시대, 버티컬 서비스가 마주한 데이터 개방의 딜레마
Kakao Ventures's avatar
Kakao Ventures
Apr 29, 2026
버티컬 데이터 개방의 티핑 포인트가 올까?
Contents
AI는 왜 우리 동네 사정을 모를까?특정 시점에 멈춰 있는 AI의 세계AI가 읽지 못하는 데이터의 4가지 유형데이터의 문이 열리는 순간비자발적 단계: 플랫폼이 직접 데이터를 수집한다인센티브 단계: 데이터를 제공하면 매출이 오른다의무 단계: 하지 않으면 경쟁에서 진다데이터 개방의 딜레마, 버티컬 앱의 미래 시나리오시나리오 A. 열면 발견되지만, 발견되는 순간 앱이 불필요해진다시나리오 B. 잠그면 트래픽을 지키지만, 소비자의 탐색 출발점에서 사라진다선점의 창은 지금 열려 있다

3줄로 미리 보는 오늘의 인사이트

  • AI가 실시간 정보에 취약한 것은 기술의 문제가 아니라, 버티컬 서비스만이 생성하고 관리하는 데이터 구조의 문제입니다.

  • 사용자가 플랫폼에 데이터를 개방하는 과정은 비자발적 → 인센티브 → 의무의 세 단계를 거쳐왔으며, AI 시대에도 같은 메커니즘이 작동할 것으로 추측해 봅니다.

  • 데이터를 열면 트래픽을 잃고, 잠그면 노출을 잃습니다. 자신의 비즈니스 논리 위에서 먼저 답을 찾는 버티컬만이 AI 시대에도 독립적인 플레이어로 남습니다.

정보를 탐색할 때, 검색창 대신 AI를 찾는 사람들이 늘어나고 있습니다. 사람에게 말하듯 편하게 물어볼 수 있을 뿐만 아니라, 선택에 필요한 정보를 골라내는 수고까지 AI가 덜어줄 수 있을 것이라는 기대가 널리 자리 잡은 덕분입니다.

그런데 막상 질문을 던지면 AI는 이렇게 답합니다. “해당 행사는 진행 중일 가능성이 높지만, 일정이 변경될 수 있으니 직접 확인하시길 권합니다.” 틀린 말은 아니지만, 검색을 대체할 만한 답도 아닙니다.

할루시네이션 문제를 학습한 AI가 불확실한 정보에는 스스로 선을 긋기 시작한 결과인데요. 그렇다면 이제는 인터넷 어딘가에 분명 올라와 있을 그 정보를, AI가 왜 모르는지가 더욱 중요해집니다.

이 정보 공백은 단순한 오류가 아니라, AI가 학습하는 데이터의 구조적 특성에서 비롯된 문제입니다. AI가 접근하지 못하는 정보는 정확히 어떤 종류이며, 그 정보를 쥐고 있는 버티컬 서비스는 AI 시대에 어떤 위치에 서게 될까요?


AI는 왜 우리 동네 사정을 모를까?

한창 두쫀쿠 붐이 불었을 때, 사람들은 AI에게 팝업 위치를 묻지 않았습니다. 며칠 사이에 입소문이 퍼지고, 줄이 생기고, 또 금세 사라지는 팝업이었기 때문입니다. 그 속도를 AI가 따라잡을 수 없다는 걸 사람들은 이미 알고 있었죠. 대신 카카오맵을 열고, 네이버 블로그를 돌아다녔습니다.

그런데 이건 단순히 업데이트 속도의 문제가 아닙니다. AI가 실시간 정보에 취약한 데는 구조적인 이유가 있습니다.


특정 시점에 멈춰 있는 AI의 세계

AI가 실시간 정보에 유보적인 대답을 하게 된 건 비교적 최근의 변화입니다. 얼마 전까지만 해도 이미 종료된 팝업을 영업 중이라 안내하거나, 폐업한 식당의 메뉴를 자신 있게 설명했죠.

할루시네이션 문제가 수면 위로 떠오르면서 AI는 불확실한 정보에 스스로 선을 긋기 시작했고, 사용자가 직접 확인하길 권한다는 답변이 나오기 시작했습니다.

그렇다면 AI는 왜 이런 질문을 ‘불확실한 정보’라고 분류할 수밖에 없는 것일까요? LLM의 구조를 보면 그 이유가 명확해집니다

LLM은 특정 시점까지의 데이터를 한꺼번에 학습해 수천억 개의 파라미터에 압축 저장하는 방식으로 작동합니다. 인간의 뇌가 새로운 경험을 기존 기억 위에 쌓아가는 것과 달리, LLM의 파라미터는 모든 지식이 하나의 거대한 행렬에 분산 저장되어 있습니다.

여기에 새로운 정보를 추가 학습시키면, 모델은 기존에 학습했던 내용을 덮어쓰는 방식으로 가중치를 조정하는데요. 문제는 이 과정에서 언어 추론 능력이나 맥락 이해 구조가 함께 손상될 수 있다는 점입니다.

새 정보를 넣을수록 모델이 전반적으로 퇴화할 위험이 생기는 셈입니다. 머신러닝 연구자들은 이 현상을 치명적 망각이라고 부릅니다.

🔖

KV Dictionary | 치명적 망각 (Catastrophic Forgetting)

치명적 망각이란 AI 모델이 새로운 정보를 학습할 때 기존에 학습한 내용을 덮어써 버리는 현상을 말합니다.

사람은 새로운 것을 배워도 기존 지식을 대부분 유지하지만, LLM은 구조상 이 두 가지를 동시에 보존하기 어렵습니다.

그렇다면 자체 메모리를 업데이트하는 대신, 새로운 정보를 외부 검색으로 보완하는 건 어떨까요?

실제로 업계에서는 이 문제를 우회하기 위한 현실적 대안으로 RAG(검색 증강 생성)를 주목하고 있습니다. 모델을 재학습하는 대신, 질문이 들어오면 외부 데이터베이스에서 관련 정보를 실시간으로 검색해 모델에 맥락으로 전달하는 방식입니다. 대부분의 AI 검색 서비스가 이 방식을 활용합니다.

하지만 RAG에도 한계는 존재합니다. RAG는 질문과 의미적으로 가장 가까운 문서를 찾아오는 방식으로 작동하기 때문에, “이 식당 오늘 열었어?”라는 질문에 “이 식당은 보통 오전 11시에 영업을 시작합니다.”라는 과거의 정보를 가져올 수밖에 없는 것이죠.

ChatGPT 대화 화면. 사용자가 팝업 스토어 운영 여부를 묻자 AI가 정확한 정보를 확인할 수 없다며 공식 채널을 통한 직접 확인을 권유하는 답변을 표시하고 있다.
ChatGPT는 실시간 정보를 직접 말해주는 대신, 사용자가 정보를 확인할 수 있는 경로를 제시합니다.

더 근본적인 문제는 RAG가 검색할 수 있는 데이터의 범위 자체가 웹에 공개된 정보로 제한된다는 점입니다. 특정 맥락에 관해서는 AI가 검색할 수 있는 대상 자체가 없다는 뜻입니다.

결국 AI가 실시간 정보에 취약한 이유는 기술이 덜 발전해서가 아닙니다. LLM의 학습 구조 자체가 특정 시점의 세계를 스냅샷처럼 포착하는 방식으로 설계되어 있기 때문이죠.

이 경계 바깥에 있는 정보, 즉 지금 이 순간에만 존재하는 데이터는 그것을 직접 생성하고 관리하는 버티컬 서비스만이 가지고 있습니다.


AI가 읽지 못하는 데이터의 4가지 유형

기술적 구조가 실시간 학습을 가로막는다면, 다음 질문은 자연스럽게 데이터로 넘어옵니다. AI가 읽지 못하는 데이터는 크게 네 가지 유형으로 구분됩니다.

첫 번째, 실시간 상태 데이터

가게의 영업 여부, 재고 수량, 병원 대기 시간, 배달 가능 여부처럼 시시각각 변하는 정보입니다. 배달의민족 앱에 뜨는 “준비 중”이나 “배달 지연” 상태는 웹에 떠도는 정보가 아니라 가게 POS 시스템에 직접 연동된 운영 데이터입니다. AI가 아무리 정교하게 추론해도 지금 이 순간 그 가게가 열려 있는지를 알 수 없습니다. 데이터 자체가 버티컬 서비스의 내부 시스템에만 존재하기 때문입니다.

배달의민족 셀프서비스 재고 관리 화면. 우아한과일가게 매장의 옵션 목록이 표시되어 있으며, 대추 방울 토마토 5kg, 제주 천혜향 등 상품별 재고 수량과 재고 관리 버튼이 나열되어 있다. 재고 일괄변경 및 옵션 등록 버튼이 상단 우측에 위치해 있다.
배달의민족에서 사장님이 재고 수량을 입력할 때, 그 데이터는 서비스에 저장됩니다.

두 번째, 거래 기반 데이터

카드 혜택, 항공권 가격, 호텔 요금, 쿠폰처럼 경제적 로직에 연결된 정보입니다. 단순히 자주 변하는 것을 넘어, 연회비·캐시백 조건·이벤트 기간 등 다양한 변수가 복잡하게 얽혀 있습니다. 카드고릴라나 뱅크샐러드가 카드사 API를 직접 연결해 실시간으로 조건을 비교하는 것과, AI가 학습 데이터에서 기억하는 혜택 정보를 답하는 것은 신뢰도 차원에서 비교가 되지 않습니다.

세 번째, 접근이 제한된 데이터

웹에 공개되지 않아 크롤링 자체가 불가능한 정보입니다. 캐치테이블의 현재 대기 팀 수와 예상 대기 시간, 쿠팡의 실시간 재고와 물류 상태, 내부 가격 정책과 개인화 혜택이 여기에 해당합니다. 서비스 운영 주체가 직접 생성하고 관리하는 데이터로, AI가 인터넷을 아무리 샅샅이 뒤져도 찾을 수 없습니다.

캐치테이블 앱의 웨이팅 등록 화면. 하이디라오 홍대점 기준 현재 웨이팅 46팀, 예상 대기 시간 94분이 표시되어 있으며, 이용 방식(홀 4인 이하), 총 입장 인원 2명 설정과 함께 웨이팅 등록하기 버튼이 하단에 위치해 있다.
지금 이 순간, 하이디라오 홍대점에 46팀이 기다리고 있다는 정보는 캐치테이블 앱 안에만 존재합니다.

네 번째, 행동 데이터

정보 탐색에서 실제 액션으로 이어지는 영역입니다. 맛집을 찾는 것과 예약하는 것, 카드 정보를 비교하는 것과 실제로 발급하는 것은 전혀 다른 레이어입니다. AI 에이전트가 가장 빠르게 진입하려는 영역이 바로 여기이지만, 예약·발급·결제라는 실제 액션은 각 버티컬 서비스의 워크플로우와 인증 체계 위에서만 작동합니다.

AI가 접근하지 못하는 데이터 4유형 분류표. 실시간 상태 데이터, 거래 기반 데이터, 접근 제한 데이터, 행동 데이터 각각의 핵심 질문과 분류 축을 정리한 표.

현실에 존재하는 실제 데이터는 이 네 가지 유형 중 하나에만 해당하지 않습니다. 배달의민족은 실시간 상태·거래 기반·접근 제한·행동 데이터를 동시에 보유하고 있습니다. 카드고릴라 역시 거래 기반·접근 제한·행동 데이터가 겹쳐 있죠.

버티컬 서비스가 여러 축에 동시에 걸쳐 있을수록, AI가 그 영역을 대체하기는 더 어려워집니다. 결국 AI 시대 버티컬 서비스의 생존을 가르는 핵심 질문은 그 데이터를 누가 생성하고 검증하는가, 데이터의 통제권은 어디에 있는가가 됩니다.


데이터의 문이 열리는 순간

데이터의 통제권이 버티컬에 있다는 것은, 동시에 버티컬이 언제 문을 열지도 스스로 결정한다는 의미입니다. 플랫폼의 역사적 패턴을 보면 데이터 공급자의 합류는 언제나 세 단계를 거쳐 왔습니다.

비자발적 단계: 플랫폼이 직접 데이터를 수집한다

첫 번째는 비자발적 단계입니다. 플랫폼이 직접 필요한 데이터를 수집하는 시기입니다. 배달의민족은 서비스 초기에 창업자들이 발로 뛰며 전단지를 수거해 식당 정보를 직접 입력했습니다. 에어비앤비는 숙소 사진의 질이 예약률을 결정한다는 것을 알고, 전문 사진사를 직접 섭외해 호스트의 공간을 촬영해주었죠. 공급자가 움직이지 않으니 플랫폼이 대신 움직인 겁니다.

AI 서비스도 지금 이 단계에 있습니다. 웹에 공개된 데이터를 크롤링하며 정보를 모으고 있죠. 실시간 데이터에 닿을 수 없는 이유는 아직 공급자가 문을 열지 않았기 때문입니다.

인센티브 단계: 데이터를 제공하면 매출이 오른다

두 번째는 인센티브 단계로, 등록하면 매출이 오른다는 메시지가 초기 채택자를 움직이기 시작하는 시기입니다.

OpenTable은 레스토랑을 플랫폼으로 끌어들이기 위해 무료 예약 관리 소프트웨어를 제공했습니다. 식당 입장에서는 편리한 예약 관리를 위해 OpenTable에 입점하기 시작했고, 결과적으로 OpenTable은 월 1,800만 좌석을 중개하는 시점에 도달했습니다. 그 이후에는 식당들이 먼저 연락해오기 시작했습니다.

지금 AI 시장에서도 비슷한 흐름이 보입니다. AIEO, GEO 최적화 서비스들이 등장하고 있고, Google AI Overview에서 노출되지 않으면 존재하지 않는 것과 다름없다는 인식이 빠르게 퍼지고 있죠.

구글은 구글 비즈니스 프로필(GBP)을 구글 맵과 AI Overview에 연동하며, 사업자들이 스스로 정보를 규격화해 올리도록 유도하고 있는데요. 선점하려는 사람들이 먼저 움직이기 시작했다는 신호입니다.

🔖

KV Dictionary | AIEO(AI Engine Optimization), GEO(Generative Engine Optimization)

AI 검색 엔진에서 자신의 콘텐츠나 서비스가 더 잘 노출되도록 최적화하는 전략입니다. 기존 SEO가 구글 검색 결과 상단을 목표로 했다면, AIEO·GEO는 ChatGPT, Perplexity 등 AI가 답변을 생성할 때 자신의 정보가 포함되도록 하는 것을 목표로 합니다.

의무 단계: 하지 않으면 경쟁에서 진다

세 번째인 의무 단계는 경쟁자가 이미 올라와 있으니 나도 안 하면 뒤처진다는 압박이 작동하는 시기입니다. 배민에 없으면 배달 주문이 안 들어온다는 말이 요식업계에서 상식이 되었을 때, 배달앱 입점은 선택이 아닌 필수가 되었습니다.

카카오맵과 네이버 지도도 마찬가지입니다. 지도 앱에 등록되지 않은 가게는 사람들이 찾아오지 않고, 리뷰가 쌓이지 않아 신뢰를 얻을 수 없습니다. AEO·GEO 서비스 업체들이 선점하려는 것이 바로 이 의무 단계입니다. AI 검색에서 보이지 않으면 존재하지 않는 것과 다름없는 시대가 온다는 것을 먼저 내다보고 있는 것이죠.

데이터 플라이휠 발생의 3단계를 동심원 구조로 시각화한 인포그래픽. 가장 바깥 원부터 순서대로 ①비자발적 단계(데이터 공급 유인 인력 없음, 플랫폼이 직접 데이터를 입력), ②인센티브 단계(데이터 공급 인센티브 발생, 초기 사용자들의 자발적 데이터 입력), ③의무 단계(경쟁을 위한 데이터 공급 의무화, 다수 사용자들의 데이터 공급 자동화)로 구성되며, 중심에는 '서비스'가 위치해 있다. 각 단계의 데이터 흐름은 화살표로 표현되어 있다.

세 단계의 전환이 반복된다면, 그 속도를 결정하는 메커니즘은 무엇일까요? 온라인 서비스 채택 확산을 실증적으로 분석한 연구들은 여기서 흥미로운 단서를 제공합니다.

2014년의 한 연구는 스카이프(Skype)의 실사용 데이터를 분석해, 사회적 영향을 통한 서비스 채택 확률이 주변 채택자 비율에 선형적으로 비례한다는 것을 최초로 실증했습니다. 한 명이 채택하면 주변의 채택 확률이 올라가고, 그것이 또 다른 채택을 이끄는 연쇄 구조를 밝혀낸 것입니다.

한편 2020년의 연구는 Granovetter의 집단행동 임계치 모델을 정교화하며 이 연쇄가 폭발적으로 전환되는 ‘복합 전염’의 임계 규모가 약 20~25% 수준에서 반복적으로 관찰된다는 것을 보여줬습니다.

🔖

KV Dictionary | 복합 전염(Complex Contagion)

주변에서 충분한 수가 먼저 행동해야 나도 따라가는 채택 구조를 말합니다. 단순 전염(한 번의 노출로 채택)과 달리, 반복 노출과 사회적 압박이 누적되어야 행동이 바뀝니다. 배민 입점, 지도 앱 등록처럼 경쟁자가 충분히 움직인 뒤에야 나머지가 따라오는 현상을 설명하는 개념입니다.

물론 이 연구들은 온라인 서비스 사용자 채택을 분석한 것으로, 버티컬 서비스의 데이터 개방을 직접 다룬 것은 아닙니다. 다만 데이터 공급자의 행동 변화에도 유사한 메커니즘이 작동할 수 있습니다. 동일 상권의 식당 중 배민 입점 비율이 일정 수준을 넘는 순간 미입점 식당의 입점 결정 확률이 급격히 높아졌을 것이라 추론해볼 수 있습니다.

AI 데이터 개방에도 같은 논리가 적용될 수 있습니다. 특정 카테고리에서 소비자의 AI 탐색 비율이 임계 수준에 도달하는 시점, 그리고 같은 카테고리의 경쟁 공급자들이 먼저 데이터를 열기 시작하는 시점이 교차할 때 공급자 압박의 변곡점이 만들어질 것입니다.

다만 이것이 정확히 언제인지는 아직 아무도 모릅니다. 공급자의 AI 데이터 개방 임계치가 언제인지 아무도 모른다는 사실 자체가, 지금 이 시장의 본질을 말해줍니다.

기술 인프라는 갖춰지고 있지만, 버티컬의 문이 열리는 시점은 기술이 아니라 비즈니스 의사결정의 문제라는 것이죠.


데이터 개방의 딜레마, 버티컬 앱의 미래 시나리오

AI 검색은 소비자의 탐색 출발점을 바꾸고 있습니다. 버티컬 서비스 입장에서 이 변화는 단순한 마케팅 채널의 이동이 아닙니다. 데이터를 어디까지 열어줄 것인가를 결정해야 하는 전략의 문제입니다.

사실 시장은 이미 움직이고 있습니다. 생성형 AI 소스에서 미국 리테일 사이트로 유입되는 트래픽은 2024년 7월 대비 2025년 5월 기준 3,500% 증가했는데요. 네이버 블로그 SEO가 검색 노출을 결정했고, 배민 입점이 배달 매출을 결정했던 것처럼, AI 노출이 새로운 생존 조건으로 자리잡는 흐름이 가속되고 있습니다.

그러나 버티컬 서비스에게 이 흐름은 양날의 검입니다. 데이터를 열었을 때와 잠갔을 때, 각각 어떤 미래가 펼쳐질지 생각해보겠습니다.


시나리오 A. 열면 발견되지만, 발견되는 순간 앱이 불필요해진다

MCP 서버를 열어 AI 플랫폼에 실시간 데이터를 제공하면, 단기적으로는 AI 검색 노출이 늘고 신규 유입이 증가할 수 있습니다. 하지만 소비자가 AI 채팅 안에서 탐색부터 의사결정까지 해결하게 되는 순간, 자사 앱을 켤 이유는 사라집니다.

앱 트래픽이 사라진다는 것은 사용자 행동 데이터 역시 더이상 쌓이지 않게 된다는 것을 의미합니다. 수년간 구축한 랭킹과 큐레이션 알고리즘은 AI 플랫폼으로 이동합니다. 노출을 얻고, 플랫폼의 핵심 비즈니스 로직을 내어주는 셈이죠.

물론 이를 반길 사업가는 없습니다. 따라서 이에 대한 절충안으로는 데이터 계층화가 거론되고 있는데요. 위치·영업시간 같은 기본 정보는 개방해 발견 가능성을 확보하고, 실시간 재고·개인화 혜택 같은 핵심 데이터는 앱 안에 가둬 전환을 유도하는 방식입니다.

그러나 이 전략이 실제로 작동하려면 롱테일 공급자의 디지털화, 데이터 구조 표준화, 공급자 스스로가 데이터를 구조화해서 올릴 인센티브가 동시에 갖춰져야 합니다.


시나리오 B. 잠그면 트래픽을 지키지만, 소비자의 탐색 출발점에서 사라진다

데이터를 열지 않으면 앱 내 경험과 데이터 통제력은 유지됩니다. 하지만 AI 검색에서 보이지 않는다는 것은 이제 소비자의 탐색 출발점에서 사라진다는 의미입니다.

구글 지도에 등록되지 않은 가게가 서서히 손님을 잃어간 것처럼, AI-invisible 페널티는 조용하지만 누적됩니다. 특히 탐색 빈도가 높은 카테고리일수록 이 페널티는 빠르게 심화됩니다. 문을 잠근 채 버틸 수 있는 시간은 AI 검색의 소비자 채택 속도에 달려 있죠.

결국 두 시나리오 모두 비용이 따릅니다. 열면 트래픽을 잃고, 잠그면 노출을 잃습니다. 버티컬 서비스가 마주한 딜레마는 어느 비용을 언제까지 감당할 수 있는가의 차원으로 넘어오게 되는 것입니다.


선점의 창은 지금 열려 있다

그러나 이 딜레마는 영원히 유지되지 않습니다. 배달의민족도 전단지를 수거하던 시절이 있었지만, 어느 순간 입점이 필수가 됐습니다. AI에도 그 전환이 언제 올지 아무도 모릅니다.

지금 버티컬 서비스에게 필요한 것은 그 전환이 오기 전에 AI와의 관계를 스스로 먼저 정의하는 것입니다. 어떤 데이터를 열고, 어떤 데이터를 지킬 것인지를 AI 노출의 압박에 밀려 결정하는 것이 아니라, 자신의 비즈니스 논리 위에서 먼저 선택해야 합니다.

데이터 계층화 전략을 먼저 설계한 버티컬은 AI를 유통 채널로 활용하면서도 핵심 워크플로우를 지킬 수 있습니다. 그렇지 않은 버티컬은 임계치가 오는 순간 플랫폼의 논리에 끌려가게 됩니다.

AI가 검색을 장악하는 속도와 버티컬이 자신의 데이터 전략을 완성하는 속도, 지금은 이 두 가지 속도가 맞붙는 시점입니다.

🚀

About Kakao Ventures

카카오벤처스는 ICT 서비스, 딥테크, 게임, 디지털 헬스케어, 뷰티 분야에서 필요한 미래를 앞당기는 스타트업에 투자하는 벤처 캐피탈입니다. 초기 스타트업의 든든한 파트너로서, 세상의 문제를 해결하려는 창업가들에게 투자합니다.

Editor Chloe

Share article
Contents
AI는 왜 우리 동네 사정을 모를까?특정 시점에 멈춰 있는 AI의 세계AI가 읽지 못하는 데이터의 4가지 유형데이터의 문이 열리는 순간비자발적 단계: 플랫폼이 직접 데이터를 수집한다인센티브 단계: 데이터를 제공하면 매출이 오른다의무 단계: 하지 않으면 경쟁에서 진다데이터 개방의 딜레마, 버티컬 앱의 미래 시나리오시나리오 A. 열면 발견되지만, 발견되는 순간 앱이 불필요해진다시나리오 B. 잠그면 트래픽을 지키지만, 소비자의 탐색 출발점에서 사라진다선점의 창은 지금 열려 있다

kakaoventures blog

RSS·Powered by Inblog