AI의 돈, 토큰을 이해하면 AI 산업의 판도가 보인다

2026. 5. 8. 09:00경제

요즘 IT 뉴스를 보다 보면 이런 말들이 자주 나온다. "토큰당 비용이 90% 절감됐다." "이 모델은 백만 토큰 컨텍스트를 지원한다." "우리 팀은 월 5,000만 토큰을 처리했다." 토큰. 도대체 이게 뭔가. 블록체인의 그 토큰인가? 아니다. 게임 아이템인가? 그것도 아니다. AI 세계에서 토큰은 훨씬 근본적인 개념이다. AI가 세상을 읽고 생각하고 말하는 기본 단위다. 그리고 지금 이 토큰이 AI 산업 전체를 설명하는 핵심 지표가 되고 있다. 오늘은 토큰이 무엇인지부터 시작해서, 왜 전 세계 빅테크들이 토큰 효율에 수조 원을 쏟아붓고 있는지, 그리고 효율이 높아지면 메모리는 정말 줄어드는지까지 하나씩 풀어보려 한다.

토큰이란 무엇인가, 레고 블록으로 생각하자

AI는 글자를 그대로 읽지 않는다. 텍스트를 잘게 쪼갠 조각들로 읽는다. 그 조각 하나하나가 토큰이다. 레고 블록으로 비유해보자. 우리는 "자동차"라는 완성된 물건을 보지만 레고는 그것을 바퀴 4개, 차체 1개, 창문 4개로 분해해서 인식한다. AI도 마찬가지다. "나는 밥을 먹었다"라는 문장을 통째로 처리하지 않고 "나", "는", "밥", "을", "먹", "었", "다" 같은 조각들로 분해해서 읽는다. 구체적인 크기로 보면 이렇다. 영어 기준으로 1토큰은 평균 단어 0.75개, 문자 4개 정도다. "Hello, world!"는 약 4토큰이다. 바이트로 환산하면 1토큰이 약 4바이트다. 1,000토큰이 4KB, 100만 토큰이 4MB 정도 된다. 그런데 한국어를 쓰는 우리에게는 불리한 사실이 있다. 한글은 영어보다 훨씬 비효율적으로 토큰화된다. 영어로 열 단어짜리 문장이 한국어로는 20~30토큰을 쓰는 경우가 많다. 같은 내용을 영어로 쓰는 것보다 한국어로 쓰면 AI 비용이 2~3배 더 나온다.

 

토큰 개념이 중요한 이유는 단순하다. 이게 AI 사용 비용의 기본 단위이기 때문이다. ChatGPT가 단어 하나를 생성하는 데 드는 비용은 약 0.00012달러다. 터무니없이 작아 보인다. 그런데 전 세계에서 매일 수억 건의 요청이 들어오면 하루에만 수십만 달러가 된다. 구글은 2025년 한 달에 1.3퀀드릴리언 개의 토큰을 처리했다고 밝혔다. 1.3 뒤에 0이 15개 붙는 숫자다. 인류가 지금까지 기록한 모든 글보다 많은 양이다. 기업 입장에서 더 실감 나게 보면 이렇다. 에이전트 하나가 하루에 처리하는 토큰이 약 100만~1,000만 개다. GPT-4급 기준으로 하루 비용이 15~150달러다. 에이전트 1,000개를 동시에 운영하면 하루에 1만 5,000~15만 달러가 나간다. 연간으로 환산하면 수십~수백억 원이다. 토큰 효율을 10%만 높여도 연간 수십억 원을 아낄 수 있다. 이것이 전 세계 빅테크들이 토큰 효율에 수조 원을 투자하는 이유다. 가격은 빠르게 내려오고 있다. 2022년 말에는 GPT-4급 성능의 비용이 토큰 100만 개당 20달러였다. 지금은 0.40달러다. 4년 만에 50분의 1이 됐다. 그런데 사용량이 훨씬 빠르게 늘어서 전체 비용은 오히려 폭증하고 있다.

 

흥미로운 변화가 하나 있다. 일부 기업들이 직원의 AI 토큰 사용량을 생산성 지표로 활용하기 시작했다. "이 개발자는 이번 달 코파일럿을 통해 5,000만 토큰을 처리했다." 이 문장이 10년 전의 "이 서버는 월 10만 건의 요청을 처리했다"와 비슷한 맥락이다. 직원이 AI를 활발하게 쓸수록 더 많은 토큰을 소비한다. 반대로 토큰을 전혀 안 쓴다면 AI 도구를 활용하지 않고 있다는 신호일 수 있다. 이 논리가 성립하면서 토큰 사용량이 AI 시대의 업무 능력 지표로 부상하고 있다.

 

토큰 효율화 전쟁, 소프트웨어 편

전 세계 AI 기업들이 어떻게 토큰을 더 효율적으로 쓰려 하는지를 보면, 크게 네 가지 무기가 있다.

 

첫 번째 무기 — 양자화

양자화는 숫자의 정밀도를 낮추는 기술이다. 원래 AI는 굉장히 정밀한 소수점 숫자로 계산했다. FP32라는 방식인데 숫자 하나를 표현하는 데 32비트를 쓴다. 음식 레시피 비유로 생각해보자. "밀가루 123.456789그램을 넣어라"가 FP32라면, "밀가루 123그램을 넣어라"가 FP8이다. 맛 차이가 거의 없는데 레시피 카드 크기는 절반이 된다. AI도 마찬가지다. FP8은 FP16 대비 메모리를 50% 줄이면서 정확도 손실이 거의 없다. 2025~2026년에 사실상 업계 표준이 됐다.

 

두 번째 무기 — 투기적 디코딩

투기적 디코딩은 교수와 조교 비유로 이해하면 쉽다. 기존 방식은 교수(대형 AI 모델)가 단어 하나하나를 직접 고르는 것이다. 투기적 디코딩은 조교(소형 AI 모델)가 먼저 3~5단어를 초안으로 내면, 교수가 한 번에 검토하고 맞으면 승인, 틀리면 수정하는 방식이다. 조교의 초안이 70~90% 맞기 때문에 교수 시간이 2~3배 절약된다. 품질은 동일하다.

 

세 번째 무기 — KV 캐시 최적화

KV 캐시는 AI의 단기 기억이다. 긴 대화를 이어갈 때 이전 내용을 기억하기 위해 저장하는 임시 메모리다. 문제는 이게 엄청나게 커진다는 것이다. 컨텍스트 길이가 100만 토큰에 이르면 KV 캐시가 GPU 메모리의 70~90%를 먹어치운다. 딥시크가 여기서 충격적인 혁신을 보여줬다. MLA라는 기술로 토큰당 KV 캐시를 70KB까지 줄였다. 같은 구조의 메타 LLaMA가 516KB인 것과 비교하면 7분의 1이다. 이 효율로 딥시크는 API 가격을 경쟁사의 90% 저렴하게 책정했다. 업계 전체가 충격을 받은 이유가 여기 있다.

 

네 번째 무기 — MoE 아키텍처

MoE는 Mixture of Experts, 전문가 혼합이라는 뜻이다. 일반 AI 모델은 어떤 질문이 들어오든 전체 파라미터를 다 동원한다. 마치 단순한 계산 문제를 물어봤는데 수학자, 물리학자, 역사학자, 의사가 전부 회의실에 모이는 것과 같다. MoE는 다르다. 질문의 성격을 파악해서 관련 있는 전문가만 불러낸다. 딥시크 V3는 전체 파라미터가 6,710억 개지만 실제로 활성화하는 것은 370억 개뿐이다. 비용은 370억 개짜리 소형 모델 수준인데 성능은 6,710억 개짜리 대형 모델 수준이 나온다.

토큰 효율화 전쟁, 하드웨어 편

소프트웨어가 아무리 효율적이어도 결국 하드웨어가 받쳐줘야 한다. 하드웨어 전쟁도 치열하다. 엔비디아 블랙웰은 이전 세대 H100 대비 토큰 비용을 35배 낮췄다. 그다음 나올 루빈은 블랙웰 대비 10배를 추가로 절감하는 게 목표다. 지금 전 세계 하이퍼스케일러들이 매주 약 1,000개의 블랙웰 랙을 설치하고 있다. 엔비디아는 성능 지표를 단순 연산 속도가 아니라 "와트당 토큰 수"와 "메가와트당 수익"으로 표현하기 시작했다. 전력이 궁극적인 제약이라는 인식이다. 구글의 TPU 전략도 인상적이다. 미드저니가 엔비디아 A100에서 구글 TPU v6e로 추론을 옮겼더니 월 비용이 210만 달러에서 70만 달러로 줄었다. 연간 1,680만 달러 절감이다. Character.AI는 3.8배 비용 개선, Stability AI는 이미지 생성 추론의 40%를 TPU로 이전했다. 그런데 가장 주목해야 할 흐름이 있다. 커스텀 ASIC의 부상이다. 구글 TPU, 아마존 Inferentia/Trainium, 마이크로소프트 Maia, 메타 MTIA. 빅테크들이 모두 엔비디아에서 자체 칩으로 이동하고 있다. 2026년 ASIC 시장 성장률이 44.6%로 GPU의 16.1%를 압도하는 이유다.

 

토큰이 효율화되면 메모리는 줄까

여기서 많은 사람이 착각하는 부분이 있다. 토큰이 효율화되면 메모리 필요량도 줄어들 것 같다는 직관이다. 틀렸다. 이것을 제번스 역설이라고 한다. 19세기 영국에서 증기기관 효율이 높아지면 석탄을 적게 쓸 거라고 생각했다. 실제로는 반대였다. 효율이 높아지자 더 많은 공장이 증기기관을 도입했고 석탄 소비는 폭증했다. AI도 똑같다. 2020년 GPT-3의 최대 컨텍스트는 4,000토큰이었다. 지금 최고 모델들은 200만 토큰을 지원한다. 500배가 늘었다. 토큰당 비용은 내려갔지만 한 번에 처리하는 양이 폭증해서 전체 메모리 사용량은 오히려 급증했다. 에이전트 시대가 이 문제를 더 키운다. 챗봇 시대에는 사용자 한 명이 대화 하나를 했다. 에이전트 시대에는 사용자 한 명이 수십~수백 개의 에이전트를 동시에 돌린다. 각 에이전트마다 KV 캐시가 필요하고, 그 KV 캐시들이 GPU 메모리를 잡아먹는다. 도로 비유로 생각해보자. 자동차 연비가 2배 좋아졌다. 그러면 도로가 덜 막힐까? 오히려 더 많은 사람이 차를 사고 도로는 더 막힌다. 토큰 효율화는 도로 확장을 늦춰주는 것이지, 도로 자체를 줄여주지는 않는다. 실제 데이터가 이를 증명한다. HBM(고대역폭 메모리) 수요는 2024년 대비 2026년에 약 4배 증가했다. SK하이닉스와 삼성의 HBM 생산 능력이 수요를 따라가지 못하는 상황이 지속되고 있고, 메모리 반도체 시장이 AI 인프라 투자의 가장 큰 수혜자 중 하나인 이유가 여기 있다. 단, 하나의 예외가 있다. 온디바이스 AI에서는 효율화가 진짜로 메모리를 줄여준다. 스마트폰이나 맥미니처럼 메모리가 고정된 기기에서는 양자화로 모델 크기를 줄이면 이전에는 불가능했던 AI 실행이 가능해진다. 13B 모델을 INT4 양자화로 8GB로 압축하면 32GB 맥미니에서 원활하게 돌아간다. 이 경우에만 효율화가 메모리 절감으로 직결된다.

 

기업들의 성적표, 누가 가장 효율적인가

전 세계 AI 기업들의 토큰 효율화 성과를 한눈에 보면 이렇다. 엔비디아는 하드웨어에서 독보적이다. 블랙웰 하나로 H100 대비 토큰 비용 35배 절감을 달성했다. 추론 전용 칩 스타트업 그록을 200억 달러에 인수한 것도 이 전쟁에서 인프라 주도권을 놓치지 않겠다는 의지다. 그런데 가장 충격적인 혁신은 딥시크에서 나왔다. 중국 스타트업이 MLA 기술로 KV 캐시를 경쟁사의 7분의 1로 압축하고, API 가격을 오픈AI보다 90% 저렴하게 책정했다. GPT-4급 성능을 패스트푸드 가격에 제공하는 것이다. 업계가 충격을 받은 것은 이 혁신이 엔비디아의 최신 칩 없이 이루어졌기 때문이다. 구글은 TPU를 통한 자체 인프라 효율화에서 성과를 내고 있다. 미드저니, Character.AI 같은 주요 고객들이 엔비디아에서 구글 TPU로 이동하면서 구글의 클라우드 AI 인프라 경쟁력이 높아지고 있다.

 

지금 두 가지 시나리오가 동시에 진행되고 있다. 하나는 토큰 비용이 계속 내려가서 AI가 거의 공짜가 되는 방향이다. 지금 추세대로 연간 10배씩 하락이 지속되면 2028년에는 GPT-4급 추론이 사실상 무료에 가까워진다. 모든 앱에 AI가 자연스럽게 내장된다. 동시에 다른 방향도 진행된다. 에이전트 시대가 열리면서 사용량이 비용 하락 속도를 훨씬 앞질러 폭증한다. 토큰이 기업의 핵심 경쟁력이자 비용 변수가 된다. 결국 토큰 효율을 잡는 기업이 AI 시대의 진짜 승자가 된다. 같은 인프라로 더 많은 토큰을 처리하고, 같은 비용으로 더 좋은 성능을 내는 기업이 살아남는다. 토큰은 AI 세계의 돈이다. 그리고 그 돈을 누가 더 효율적으로 쓰는지가 지금 가장 치열한 전쟁이다.

 

※ 이 글은 공개된 기술 자료와 산업 분석 보고서를 바탕으로 한 정보 제공 목적의 콘텐츠입니다. 기술 발전 속도에 따라 세부 수치가 변경될 수 있습니다.

반응형