오늘날 우리의 삶을 이끌고 있는 것은 고결한 철학이나 성현의 가르침이 아니라 숫자 덩어리인 데이터다. 출근길에 버스를 타기 위해서는 교통 데이터가 필요하고, 점심시간에는 네이버지도의 별점을 보고 맛집을 찾아다닌다. 쿠팡 같은 온라인 쇼핑몰은 나의 취향을 데이터로 보관하고 이에 맞춰 추천 상품을 1면에 올려 둔다. 내가 무슨 영상을 볼지, 어떤 뉴스를 읽을지도 알고리즘이 정해 준다. 이제 우리의 삶을 인도하는 것은 더 이상 역사와 철학이 아니다. 이미 데이터는 우리의 삶을 지배하고 있다. _〈본문 18쪽〉
중국에서 한국의 대기업 화장품 브랜드는 완전히 몰락했다고 해도 과언이 아니다. 오히려 지금 중국 화장품 시장을 선도하는 주체는 브랜드가 아니라 소위 ‘왕홍(网红)’이라 불리는 중국의 SNS 인플루언서들이다. 이들은 잘 알려지지 않은 상품, 가성비가 뛰어난 중소기업의 상품을 소개하고 소비자의 호평과 구매를 유도한다. 중소형 브랜드라 하더라도 사용 후기와 데이터가 쌓이자 단숨에 한국 대기업의 화장품은 시장에서 밀려나고 말았다. _〈본문 32쪽〉
내가 가진 콘텐츠의 가치는 대중으로부터 받는 좋아요의 숫자로 증명된다. 이런 사실은 과거처럼 소수의 권력자들에 의해서 전문성을 검증하는 시대가 끝났음을 뜻한다. 오히려 대중으로부터 좋아요를 많이 받는 사람이 지식과 정보를 유통하는 자격을 얻는 시대다. 이런 현상은 권력 이동의 단면을 보여 준다. 소수의 권력자들 대신 데이터와 플랫폼이 사회의 권위와 영향력을 배분하게 된 것이다. _〈본문 47쪽〉
경쟁이 치열했던 만큼 이커머스 산업에는 많은 변화가 있었다. 10년 전만 해도 인터넷 쇼핑 시장에서 잘나갔던 기업들은 지마켓, 옥션, 인터파크 등이었다. 그러나 어느 순간 누적된 적자와 경쟁 압력을 견디지 못하고 시장에서 퇴출되었다. 그 자리에 쿠팡, 네이버 쇼핑 등 후발 주자가 등장했다. 격변 끝에 한국 온라인 쇼핑 시장은 쿠팡, 네이버의 2강 체제로 자리를 잡고 SSG가 추격하는 형태가 되었다. _〈본문 62쪽〉
쿠팡의 물류 센터에는 같은 품목이 여기저기에 흩어져 뒤죽박죽으로 정리되어 있다. 다양한 제품을 진열대 곳곳에 소량씩 배치하는 것이다. 얼핏 보면 상식적인 입장에서 정리라고 표현하기 어렵지만, 쿠팡은 이러한 ‘무질서한 정리’ 방식으로 물류 센터의 효율을 235%나 끌어올렸다. 쿠팡이 택한 창고 정리 방식을 랜덤스토우(Random Stow)라고 부른다. 이 방식은 많은 사람의 상식과 달리 물류 센터의 관리 비용을 줄이는 데 크게 기여한다. 랜덤스토우는 사람들의 직관과는 어긋나지만 작업자 동선은 최소로 줄여 준다. _〈본문 70쪽〉
다이내믹 프라이싱을 둘러싼 논란은 우리의 데이터가 어디까지 사용될 수 있는지에 대해 생각할 거리를 남긴다. 사람들은 나의 개인정보 제공에 동의했지만, 그 동의에는 가격을 인상하거나 임금을 깎는 데 데이터를 사용할 수 있다는 점까지는 포함되지 않았기 때문이다. 이처럼 우리가 플랫폼에 지불하는 데이터는 양면성을 띠고 있다. 나의 데이터는 나를 위해 사용되기도 하지만 나를 위협하는 화살이 되기도 한다. _〈본문 85쪽〉
메타데이터를 만드는 작업이 사람 손으로 이루어진다는 것은 데이터 시대에도 인간의 역할이 남아 있음을 보여 준다. 이미 데이터와 AI는 많은 분야에서 인간을 능가했다. 그러나 역설적이게도 인간에게는 너무 쉽지만 AI는 쉽게 해결하지 못하는 일이 존재한다. _〈본문 92쪽〉
MS는 이미 링크드인의 데이터를 자사의 소프트웨어와 결합했다. MS는 고객 관리 프로그램인 ‘다이내믹스365’에 링크드인의 프로필 데이터를 통합했다. 쉽게 말하면 업무용 메신저 프로그램에 페이스북의 프로필 데이터가 들어온 셈이다. _〈본문 115쪽〉
앞의 단어를 보고 뒤에 어떤 단어가 이어질지를 ‘확률값’으로도 나타낼 수 있다. 예컨대 ‘무궁화 꽃이’ 뒤에 ‘피었습니다’가 나올 확률은 91%, ‘아름답습니다’는 3%, ‘사라집니다’는 1% 등으로 나타낸다. 이 확률값은 이제까지 인간들이 작성한 텍스트를 통해 알 수 있다. 인간이 그동안 쓴 문학 작품, 뉴스 기사, 블로그의 글 등을 모두 조사하면 구할 수 있는 값이다. 즉 딥러닝은 인간이 이미 작성한 텍스트 데이터를 바탕으로 단어 간의 상관관계를 알아낸다. _〈본문 142쪽〉
그런데 언어 장벽은 AI 산업에서도 여전히 유효할까? 즉 ‘영어가 아니라 한국어로 된 AI는 한국 기업이 더 잘 만들지 않을까?’라는 기대다. 그러나 지금까지 한국에서 개발한 AI를 보면 AI 산업에서 언어 장벽은 과거처럼 굳건하지는 않은 것처럼 보인다. _〈본문 164쪽〉
결과적으로 한국 정부의 지도 반출 불허 결정은 네이버, 카카오 등의 토종 플랫폼에 유리하게 작용했다. 구글이 한국의 정밀 지도를 확보하지 못해 고전하는 동안 토종 플랫폼인 네이버, 티맵, 카카오 등이 지도 앱 시장에서 자리를 잡았기 때문이다. 쉽게 말하면 한국은 데이터 주권을 행사한 셈이고 궁극적으로 토종 플랫폼의 성장이라는 결과를 낳았다. 이는 국경이 없을 것만 같던 데이터에도 분명 주권이라는 개념이 존재함을 보여 준다. _〈본문 176쪽〉
중국이 데이터 생산에서 강력한 이유는 10억 명의 인터넷 사용 인구 때문이다. 중국 인구가 만들어 내는 SNS 기록, 인터넷 방문 기록, CCTV 기록은 중국을 세계 최고의 데이터 생산국의 자리에 올려놓았다. 게다가 전자 상거래나 디지털 결제도 미국을 압도한다. 중국의 전자 상거래 규모는 전 세계의 40%를 차지하며 초당 처리되는 거래량도 미국의 3배에 달한다. 알리페이(AliPay) 같은 모바일 결제를 이용하는 사람도 미국의 9배를 넘는다. _〈본문 183쪽〉
국경 간 데이터 이동량을 보면 미국이 얼마나 많은 데이터를 해외에서 수입하는지 알 수 있다. 2017년 기준 초당 200테라비트(Terabits)의 데이터가 미국의 국경을 넘나들었다. 물론 이 흐름은 주로 구글, 유튜브, 페이스북 등의 플랫폼 기업이 만들어 낸다. 그러나 중국은 초당 40테라비트의 데이터만이 국경을 넘나든다. 미국에 비해서도 20%에 불과할 뿐만 아니라 싱가포르, 스웨덴 같은 소규모 국가에도 뒤처지는 기록이다. 그만큼 중국의 데이터 생산이 자국의 내수 시장에만 지나치게 편향되어 있음을 보여 준다. _〈본문 186쪽〉
미국은 과거 상품 중심의 전통적인 FTA에서 벗어나, 디지털 상품과 데이터에 특화된 디지털 버전의 FTA도 체결하고 있다. 멕시코, 캐나다(USMCA)와는 물론이고 일본(USJDTA)과도 최근 디지털 FTA를 체결했다. 미국은 디지털 FTA에서 각국의 데이터 재량권을 축소하는 쪽으로 규범을 만들어 가고 있다. 과거에는 각국이 공공의 목적을 위해 데이터 주권을 주장할 여지를 남겨 두었으나 그 권한을 점점 배제하고 있다. _〈본문 196쪽〉
인터넷 사이트를 방문할 때마다 귀찮게 뜨는 쿠키 설정창도 EU가 만들어 낸 작품이다. EU의 일반개인정보보호법은 인터넷 사용 내역인 쿠키도 개인정보의 일종이라고 해석한다. 이에 따라 오늘날 모든 인터넷 사이트를 최초로 방문하면 이들은 쿠키 수집 여부를 사용자에게 물어본다. _〈본문 204쪽〉
두 지역의 경제력 격차를 가른 것은 바로 데이터다. 앞서 살펴본 데이터국내총생산 지표가 보여주듯이 미국은 데이터의 생산과 소비에서 압도적인 1위 국가다. 미국은 플랫폼 경제를 주도하는 기업(MS, 애플, 엔비디아, 아마존, 메타, 테슬라, 알파벳)을 보유하고 있으며 이 기업들은 지난 10년간 전 세계의 데이터를 지배했다. 지금 상태가 유지된다면 EU와 미국의 경제력 격차는 더욱 커질 수밖에 없는 운명이다. _〈본문 218쪽〉
불행히도 한국에서 이루어지는 데이터의 유상 거래 규모는 해외에 비해 턱없이 작다. 2022년을 기준으로 한국에서 거래된 데이터는 연간 1.77조 원이었다. 한국 전체 데이터 산업 규모(25조 원)의 약 7% 정도에 불과하다. 이는 데이터 거래가 활발히 이루어지는 미국(500조 원, 2023년)에 비해서 0.3%에 달하는 초라한 규모다. _〈본문 232쪽〉
데이터를 결합할 수 있는 사례는 무궁무진하다. 스마트워치의 건강 데이터와 의료 데이터가 결합하거나 수면 패턴과 소비 데이터가 결합될 수도 있다. 또 위치 정보와 소비 데이터가 결합될 수도 있고, 날씨와 소비가 결합될 수도 있다. 데이터 결합은 세상을 이해하는 새로운 시각을 제공한다. 오늘날의 데이터를 빅데이터라 부르는 이유이기도 하다. 빅데이터 시대에는 결합을 통해 데이터를 크게(big) 만들면 그 가치도 더욱 커진다. _〈본문 245쪽〉
소비자에게 다양한 편익을 제공함에도 마이데이터 서비스에 적대감을 가지는 사람도 많다. 대표적인 집단은 데이터를 내놓아야 하는 사람들이다. 예컨대 은행 입장에서 자기 데이터를 모두 카카오페이에 제공하면, 고객은 은행을 방문하지 않고 모두 카카오페이로 찾아갈 것이다. 즉 마이데이터 산업의 도입은 필연적으로 경제 이해관계의 변화를 초래한다. 손해를 보는 사람이 있고 이득을 보는 사람도 생긴다. 따라서 마이데이터 산업을 우리 경제에 정착시키려면 기득권 집단(데이터 제공자)과의 이해관계 조율이 가장 선결되어야 할 문제다. _〈본문 261쪽〉
세계적으로 유명한 데이터 사이언티스트는 극소수다. 그래서 이들을 확보하려는 빅테크 기업 간의 경쟁도 치열하다. 구글은 2014년 AI 회사인 딥마인드를 통째로 인수했는데 인수 가격은 약 5억 달러였다. 당시로서는 무명 기업에 불과했던 딥마인드에 과도한 금액을 투자했다는 평도 많았다. 그러나 전문가들은 이를 AI 인재 확보 비용이라고 해석했다. 딥러닝 전문가는 당시 세계적으로 50명 정도만 활동하던 상황이었고 그중 10명 이상이 딥마인드에 근무하고 있었다. _〈본문 270쪽〉
AI가 왜(Why)라는 단순한 질문에 제대로 대답하지 못하는 이유는 빅데이터와 상관관계에 기반하고 있기 때문이다. 빅데이터 기술은 데이터 사이의 숨겨진 패턴(correlation, 상관관계)을 찾아내는 도구일 뿐 원인과 결과(causality, 인과관계)를 찾아내는 장치가 아니다. 즉 빅데이터는 결론(What)은 내지만 왜(Why) 그런 결론에 도달했는지에 대한 그럴듯한 스토리는 제시하지 못한다. 이 점이 빅데이터가 인간을 대체하기 어려운 이유다. 인간은 ‘결론이 났으니까 그에 따르자’라고 단순하게 행동하는 동물이 아니다. 그 결론에 도달한 이유를 알고 싶어 한다. _〈본문 275쪽〉
이는 기업이 빠른 실패를 선호한다는 뜻이기도 하다. 이제 기업은 시장에 아이디어를 물어보고 반응이 좋지 않으면 빠르게 손절(cutting the loss)할 수 있다. 예전에는 실패가 두려움의 대상일 수밖에 없었다. 그러나 이제는 빠른 실패를 통해 시장의 트렌드를 읽어 가고 있다. _〈본문 288쪽〉
그런데 테스코는 데이터로 망한 기업으로도 유명하다. 기업 규모가 커지면서 테스코의 데이터 분석은 점점 산으로 가기 시작했다. 테스코는 자신들이 만든 성공의 공식에 따라 데이터 분석을 계속했다. 그러나 점점 돈이 되는 데이터보다 분석하기 쉬운 데이터에만 매달렸다. 인터넷 시대가 오면서 소비자의 행동에 대한 이해가 필요했지만 여전히 가격 분석에만 매진했다. 결국 테스코의 데이터 집착은 경영난으로 이어진다. 데이터로 성공한 기업이 데이터에 집착하다 파국을 맞았다. _〈본문 304쪽〉
앞으로 점점 중요해질 자유는 데이터 독재로부터의 자유다. 데이터는 벌써 우리의 자유를 침해하고 있다. 데이터는 내가 어떻게 행동할지를 예측하고 나의 행동에 통제를 가한다. 심지어 없던 욕구도 만들어 낸다. 사람들은 보고 싶은 영상을 보는 것이 아니라 추천받은 영상을 본다. 알고리즘이 추천한 영상을 보며 세상을 이해하고 웃고 떠들며 살아간다. 데이터 위에서 편안함을 누리고 있지만 우리의 자유의지도 동시에 사라지고 있다. _〈본문 321쪽〉