2025.01.31 15:59
세계 최초의 '추론 모델'(reasoning model)이라는 인공지능(AI)의 진보된 형태가 지난해 9월, 미국 기업 오픈AI에 의해 공개됐다. 'o1'("오원"으로 읽음)이라 불리는 이 모델은 '사고 과정'(chain of thought)을 활용해 과학과 수학의 복잡한 문제를 해결하며, 문제를 구성 요소별로 나누고 여러 접근법을 시험한 뒤 최종 결론을 도출한다. 이 기술의 공개 이후, 이를 모방하려는 경쟁이 촉발됐다. 지난 12월, 구글은 'Gemini(제미나이) Flash Thinking'이라는 자체 추론 모델을 발표했다. 이에 맞서 오픈AI는 며칠 뒤 'o1'의 업그레이드 버전인 'o3'을 내놓았다.
그러나 막대한 자원을 투입했음에도 불구하고 구글이 오픈AI를 가장 먼저 따라한 기업은 아니었다. 'o1'이 공개된 지 불과 석 달도 지나지 않아, 중국의 전자상거래 대기업 알리바바가 자사의 챗봇 'Qwen'의 새 버전 'QwQ'를 출시하며 같은 '추론' 기능을 적용했다. 알리바바는 공식 블로그에서 "생각한다는 것은 무엇인가, 질문하고 이해한다는 것은 무엇인가"라는 철학적인 질문과 함께, 해당 모델을 무료로 사용할 수 있는 링크를 제공했다. 이에 앞서 중국 기업 딥시크(DeepSeek)는 'R1'이라는 추론 모델의 '프리뷰' 버전을 공개한 바 있다. 미국 정부가 중국의 인공지능 산업을 견제하려는 노력을 기울였음에도 불구하고, 중국 기업 두 곳이 미국 기업과의 기술 격차를 불과 몇 주 단위로 좁히는 데 성공한 것이다.
추론 모델뿐만 아니라, 대형언어모델(LLM) 분야에서도 중국 기업들은 선두 그룹에 있다. 지난해 12월, 딥시크는 새로운 대형언어모델 'V3'를 발표했다. 이 모델의 크기는 약 700기가바이트로, 일반용 하드웨어에서는 구동할 수 없을 정도로 방대하며, 6850억 개의 파라미터(parameters)를 보유하고 있다. 개별 규칙인 파라미터는 합쳐져 거대한 인간 뇌신경 같은 뉴럴(neural) 네트워크를 구성하는데, 그동안 무료로 다운로드할 수 있었던 어떤 모델보다도 규모가 컸다. 페이스북의 모회사 메타(Meta)가 지난해 7월 출시한 대표적인 대형언어모델 'Llama 3.1'의 파라미터 수는 4050억 개에 불과했다.
딥시크의 대형언어모델은 단순히 서구권 경쟁 모델보다 크기만 한 것이 아니다. 성능 면에서도 구글과 오픈AI의 독점 모델을 제외하면 어깨를 겨눌 경쟁 모델이 없는 것으로 평가된다. AI 코딩 플랫폼 에이더(Aider)의 창립자인 폴 고티에(Paul Gauthier)는 이 모델을 자신의 코딩 벤치마크 테스트에 적용한 결과, 'o1'을 제외한 모든 경쟁 모델을 능가하는 성능을 보였다고 밝혔다. '크라우드소싱 기반의'(crowdsourced) AI 챗봇의 성능을 평가하는 'lmsys' 랭킹에서도 이 모델은 전체 7위에 올랐다. 이는 오픈소스 모델 가운데 가장 높은 급이며, 구글과 오픈AI를 제외한 모든 기업이 출시한 모델 중에서도 최고 성적이다.
[새로운 PADO 기사가 올라올 때마다 카톡으로 알려드립니다 (무료)]
용(龍)의 등장
중국의 AI 기술은 이제 미국과의 격차가 극히 좁혀졌다. 오픈AI의 CEO 샘 올트먼 조차 이를 의식해 격차의 미미함을 해명할 필요를 느낄 정도다. 딥시크가 'V3'를 공개한 직후, 올트먼은 불만 섞인 어조로 트위터에 "작동하는 기술을 그대로 베끼는 것은 (상대적으로) 쉽다. 하지만 완전히 새로운 것을 시도하는 것은 위험하고 어렵다. 특히 그것이 작동할지조차 알 수 없는 경우엔 더더욱 그렇다"라고 글을 남겼다.
처음에 중국의 AI 산업은 미국보다 뒤처지는 '2등' 수준으로 보였다. 이는 부분적으로 미국의 제재 때문이었다. 2022년, 미국 정부는 첨단 반도체의 중국 수출을 금지했다. 반도체 제조업체 엔비디아는 중국 수출을 위한 저성능 버전을 따로 설계해야 했다. 또한, 미국은 중국이 최첨단 반도체를 자체 생산하지 못하도록 필요한 장비의 수출을 차단하고, 관련 기술을 지원하는 미국 밖 기업에도 제재를 가하겠다고 경고했다.
중국 국내 요인도 중국 AI 산업의 발전을 저해했다. 중국 기업들은 대형언어모델 개발에 뒤늦게 뛰어들었는데, 이는 모델이 '환각(hallucination)'을 일으켜 잘못된 정보를 제공하거나, 정치적으로 민감한 발언을 할 가능성에 대한 검열 우려 때문이었다. 검색엔진 기업 바이두(Baidu)는 오랫동안 내부적으로 대형언어모델을 연구하며 '어니'(Ernie)라는 모델을 개발했지만, 대중에게 공개하는 것을 주저했다. 결국 '챗GPT'의 성공이 바이두의 입장을 바꾸게 했으나, 초반에는 초대받은 사용자만 '어니봇'을 사용할 수 있도록 제한했다.
이후 중국 정부는 AI 산업을 육성하기 위한 새로운 규정을 도입했다. 중국 규제 당국은 모델 개발자들에게 '사회주의적 가치관'을 준수하면서도 혁신적인 생성형 AI의 발전을 장려하겠다는 방침을 밝혔다. 테크 뉴스 매체 테크테크차이나의 편집장 비비안 토는 "중국은 글로벌 AI 시장에서 경쟁력을 확보하려 한다"고 분석했다. 알리바바는 이러한 새로운 환경에 가장 빠르게 적응한 기업 중 하나로, 처음에는 'Tongyi Qianwen'(通義千問)이라는 이름으로, 이후에는 간단히 'Qwen'으로 브랜드를 변경하며 자사 대형언어모델을 출시했다.
초기 알리바바의 AI 모델은 크게 주목받지 못했다. 메타의 오픈소스 'Llama' 대형언어모델을 기반으로 한 변형 모델("fork")에 불과했기 때문이다. 그러나 2024년 들어 'Qwen'의 후속 버전이 연이어 출시되면서 품질이 크게 개선됐다. "이 모델들은 이제 서구권 선도 연구소들이 개발한 최상급 모델들과 경쟁할 수 있는 수준에 도달했다"라고 AI 연구개발 기업 앤트로픽(Anthropic)의 공동 창립자 잭 클락(Jack Clark)은 평가했다. 알리바바가 텍스트뿐만 아니라 이미지 분석까지 가능한 'Qwen'을 공개하자, 이러한 평가가 더욱 힘을 얻었다.
중국의 또 다른 IT 대기업인 텐센트와 화웨이 역시 자체 AI 모델을 개발 중이다. 그러나 딥시크는 이들과 다른 출발점을 가지고 있다. 알리바바가 'Qwen'의 첫 버전을 내놓았을 당시, 딥시크는 아예 존재하지도 않았다. 이 기업은 원래 2015년 설립된 헤지펀드 하이플라이어(High-Flyer)에서 출발했으며, 주식 거래에서 AI를 활용해 우위를 점하려는 목표를 가졌던 양적 투자(quant fund) 기업이었다.
[PADO 트럼프 특집: '미리보는 트럼프 2.0 시대']
하지만 딥시크의 설립 동기는 단순한 상업적 이익에만 있지 않았다. 하이플라이어의 창립자인 량원펑(梁文鋒, Liang Wenfeng)은 오픈AI의 초기 투자자들처럼 "수익보다는 사명(使命)을 추구하는 것"이 목표였다고 설명했다. 'Qwen'이 2023년에 출시된 바로 그달, 하이플라이어는 인간 수준의 AI 개발을 목표로 삼고 AI 연구 부서를 독립시켜 딥시크를 출범시켰다.
오픈AI가 그러했듯, 딥시크 역시 AI를 공익을 위해 개발하겠다고 선언했다. "기술이 소수 기업에 의해 독점되지 않도록 대부분의 연구 결과를 공개할 것"이라고 량원펑은 밝혔다. 오픈AI는 갈수록 커지는 AI 훈련 비용을 충당하기 위해 외부 자금 투입에 의존해야 했지만, 딥시크는 하이플라이어가 보유하고 있던 방대한 컴퓨팅 자원을 그대로 활용할 수 있었다.
딥시크의 거대한 대형언어모델은 규모뿐만 아니라, 훈련 효율성에서도 눈에 띈다. 케임브리지대의 AI 연구자 닉 레인(Nic Lane)은 "특정한 단일 혁신이 아니라, 수많은 작은 개선이 모여 성공을 이루었다"고 분석했다. 모델 훈련 과정에서 불필요한 계산을 단순화하는 반면, 필요한 경우에는 높은 정밀도를 유지했고, 개별 반도체 칩 간의 통신을 최적화하기 위해 서버팜을 재구성했다. 또한, 학습된 모델을 딥시크 'R1'의 출력 데이터를 기반으로 미세조정해, 보다 적은 비용으로 높은 품질을 재현할 수 있도록 했다.
이러한 혁신 덕분에 'V3'는 총 30만 시간 미만의 반도체 칩 연산 시간으로 훈련을 완료했으며, 비용도 600만 달러 이하로 추산된다. 이는 'Llama 3.1'(메타)의 훈련에 소요된 비용과 비교했을 때 약 10분의 1 수준이다. 'V3'는 단 2000개의 반도체 칩으로 훈련됐으며, 같은 작업을 위해 'Llama 3.1'이 1만6000개의 반도체 칩을 사용한 것과 비교된다. 더욱이, 미국의 반도체 제재로 인해 딥시크가 사용한 반도체 칩들은 서구권 모델들이 활용한 최첨단 반도체보다 성능이 낮은 것이었다. 반면, 메타는 35만개 이상의 반도체 칩을 사용해 서버팜을 구축할 계획이다. 테슬라의 전 AI 책임자였던 안드레이 카파시(Andrej Karpathy)는 "딥시크가 마치 진저 로저스(Ginger Rogers, 1911~2995: 배우 겸 안무가)가 하이힐을 신고 뒤로 춤추는 것처럼, 초저예산으로 최첨단 모델을 훈련하는 일을 '쉽게 보이도록' 만들었다"고 평가했다.
딥시크의 모델은 훈련 비용뿐만 아니라 실행 비용에서도 경쟁력을 갖췄다. 딥시크는 연산을 여러 개의 반도체 칩에 분산시키는 효율성이 뛰어나며, 이전 단계가 완료되기 전에 다음 단계의 연산을 시작해 반도체 칩이 지속적으로 가동되도록 한다. 덕분에 올해 2월, 딥시크가 다른 기업들이 'V3'를 활용해 서비스를 개발할 수 있도록 허용했을 때, 가격은 앤트로픽이 자사의 대형언어모델 '클로드'(Claude) 모델에 부과하는 요금의 10분의 1 수준에 불과했다. AI 전문가 사이먼 윌리슨은 "만약 이 모델들이 실제로 동등한 품질을 갖추고 있다면, 이는 현재 진행 중인 대형언어모델 가격 경쟁에서 극적인 전환점이 될 것"이라고 말했다.
딥시크의 효율성 극대화 전략은 여기서 멈추지 않았다. 이번 주, 'R1'의 전체 버전을 공개하는 동시에, 더 작고 저렴하며 빠른 '경량화(distilled)' 모델을 함께 출시했다. 이들 모델은 원본 모델에 가까운 성능을 유지하면서도 비용과 자원 소모를 대폭 줄였다. 이는 알리바바와 메타의 전략을 따라간 것으로, 딥시크가 다시 한번 글로벌 AI 업계의 거대 기업들과 경쟁할 수 있음을 입증한 사례다.
용(龍)의 길
알리바바와 딥시크는 서구권의 최첨단 연구소들과 또 다른 방식으로 경쟁하고 있다. 오픈AI나 구글과 달리, 중국 연구소들은 메타의 방식을 따르며 자사 AI 시스템을 오픈소스 라이선스로 공개하고 있다. 예를 들어, 누구든 'Qwen' AI를 다운로드해 자체 프로그램을 개발할 수 있으며, 별도의 허가도 필요하지 않다. 이 같은 개방성은 연구의 투명성과도 연결된다. 알리바바와 딥시크는 새로운 모델을 출시할 때마다 해당 모델의 성능을 개선하는 데 사용된 기술을 상세히 설명한 논문을 공개하고 있다.
알리바바는 'QwQ'(Questions with Qwen)를 출시하면서, 이러한 추론 모델을 오픈 라이선스로 배포한 세계 최초의 기업이 되었다. 사용자는 20기가바이트(GB)에 달하는 모델 파일을 다운로드해 직접 실행하거나 내부 작동 방식을 분석할 수 있다. 이는 오픈AI의 'o1'과는 완전히 다른 접근 방식이다. 오픈AI는 'o1'의 내부 작동 원리를 철저히 비공개로 유지하고 있다.
기본적으로, 두 모델 모두 '테스트-타임 컴퓨트(test-time compute)'라는 개념을 적용하고 있다. 즉, 기존 대형언어모델들이 학습 단계에서만 연산 자원을 집중적으로 활용하는 것과 달리, 이들 모델은 질문에 답할 때도 훨씬 많은 연산을 수행한다. 이는 심리학자 대니얼 카너먼이 제시한 '2형 사고'(Type 2 Thinking)와 유사한 개념이다. 직관적이고 즉각적인 반응을 보이는 '1형 사고'(Type 1 Thinking)와 달리, '2형 사고'는 더 느리고 신중하며 분석적이다. 이러한 방식은 특히 수학과 프로그래밍 분야에서 뛰어난 성과를 거두고 있다.
예를 들어, "프랑스의 수도가 어디인가?"라는 단순한 질문을 받으면, 대부분의 사람들은 즉각적으로 "파리"라고 대답할 것이다. 기존의 챗봇도 마찬가지다. 언어 모델이 통계적으로 가장 적절한 단어를 찾고, 문장을 자연스럽게 완성하기 때문이다. 그러나 "프랑스에서 다섯 번째로 인구가 많은 도시는 어디인가?"라는 질문을 받으면, 사람들은 더 구조적인 사고를 하게 된다. 먼저 프랑스의 대도시 목록을 떠올린 후, 인구 순으로 정리한 뒤 답을 도출하는 방식이다.
'o1'과 그 모방 모델들은 바로 이러한 구조적 사고를 AI 모델에서 유도하는 것이 핵심이다. 가장 그럴듯한 답을 즉시 내놓는 것이 아니라, 문제를 여러 부분으로 나눈 후 차근차근 결론을 향해 나아가는 방식이다. 그러나 'o1'은 이러한 사고 과정을 사용자가 직접 확인할 수 없도록 설계되어 있다. 사용자는 최종 답변과 요약된 과정만 볼 수 있다. 오픈AI는 이러한 설계를 정당화하며, 모델이 논란이 될 만한 표현을 사용할지 여부를 고민하다가 스스로 걸러낼 수도 있는데, 만약 모든 사고 과정이 공개된다면 이러한 (미리 걸러낸) 민감한 생각들이 모두 노출될 가능성이 있다고 설명했다. 하지만, 내부 논리를 감추는 것은 경쟁사들이 쉽게 모방하지 못하도록 하기 위한 조치이기도 하다.
하지만 알리바바는 이러한 제약을 두지 않는다. 'QwQ'에 복잡한 수학 문제를 해결하도록 요청하면, 모델은 그 과정을 상세하게 설명한다. 심지어 자체적으로 수천 단어에 달하는 분석을 수행하며 다양한 접근 방식을 시험하기도 한다. 예를 들어, 다음과 같은 문제를 제시한다고 해보자. "2019의 8제곱 + 1의 가장 작은 홀수 소인수를 찾아라." 'QwQ'는 스스로 생각하는 듯한 방식으로 답변을 생성한다. "음, 이 숫자는 꽤 크지만, 단계별로 분해할 수 있을 것 같아." 이후 약 2000개 단어에 걸쳐 논리를 전개한 끝에, 정답이 97임을 도출한다.
이러한 개방성은 우연이 아니다. 풀사이드(Poolside)의 공동 창립자인 아이소 칸트(Eiso Kant)는 "중국 AI 연구소들은 세계적인 AI 인재들과 경쟁하고 있다"며, "해외로 이직을 고민하는 연구자들에게 서구 연구소들이 제공할 수 없는 단 한 가지는 '완전한 개방성'이다"라고 설명했다. 서구권 AI 연구개발 기업들은 경쟁이 치열해질수록 기술을 철저히 비공개로 유지하고 있지만, 중국 연구소들은 중요한 연구 결과를 논문 형태로 공개하며 경쟁력을 강화하고 있다. 칸트는 "만약 최신 AI 기술의 '비밀'이 어디에서 먼저 공개될지를 알고 싶다면, 중국의 오픈소스 연구자들을 따라가 보라"고 조언했다. 딥시크가 'V3'를 발표할 때 함께 공개한 논문에는 139명의 연구자 이름이 포함되어 있었다. 케임브리지대의 AI 연구자 닉 레인(Nic Lane)은 이러한 연구자들의 인정욕구가 미국 AI 연구소에서 익명으로 연구에 몰두하는 것보다 더 매력적으로 작용할 수 있다고 분석했다.
미국 정부는 첨단 기술이 중국으로 유출되는 것을 막기 위해 강력한 제재를 시행하고 있다. 하지만 이로 인해 미국 내 중국인 연구자들의 연구 환경도 악화되고 있다. 단순히 행정적 절차가 복잡해지는 것뿐만 아니라, 중국인 연구자들에 대한 의심과 불신이 확산되고 있다. 심지어 학계 및 기술 컨퍼런스 같은 사회적 모임에서도 '기술 유출' 혹은 '스파이 활동'에 대한 경계가 이어지고 있다.
중국 AI의 한계: '빅 보스'의 존재
그러나 중국에서 연구를 진행하는 것도 나름의 약점이 있다. 예를 들어, 딥시크 'V3'에게 대만에 대해 질문하면, 이 모델은 처음에는 "대만은 동아시아에 위치한 섬으로, 공식 명칭은 중화민국이다"라고 설명을 시작한다. 그러나 몇 문장을 생성한 후, 모델은 스스로 답변을 멈추고, 기존 내용을 삭제한 뒤 다음과 같이 짧게 응답한다. "다른 주제에 대해 이야기해 봅시다."
중국 AI 연구소들이 중국 정부보다 더 투명한 이유 중 하나는 자체 AI를 중심으로 하는 산업 생태계를 조성하려는 전략 때문이다. 이는 단순한 기술 개방을 넘어 상업적 가치도 지닌다. 오픈소스 모델을 활용해 제품을 개발하는 기업들은 결국 해당 모델을 만든 회사의 유료 서비스나 부가 제품을 구매할 가능성이 크다. 동시에, 이는 미국과의 AI 경쟁에서 중국이 전략적 우위를 점하는 효과도 가져온다.
중국 기업들은 자연스럽게 중국산 AI 모델을 활용하는 것을 선호한다. 서구권 모델을 기반으로 개발할 경우, 훗날 미국 정부가 새로운 제재나 규제를 가할 경우 기반 플랫폼으로부터 차단될 위험이 있기 때문이다. 또한, 중국 모델을 사용하는 기업들은 서구 모델이 고려하지 않는 중국 정부의 검열 규정에 저촉될 걱정을 덜 수 있다. 상하이에 기반을 둔 테크 투자자 프랜시스 영(Francis Young)은 "중국 시장에서 AI 도구를 자사 제품에 장착해 중국 시장에서 판매하려는 애플과 삼성 같은 기업들에게 중국 현지 파트너는 필수적"이라고 설명한다. 뿐만 아니라, 해외에서도 중국 AI 모델을 선호하는 사례가 있다. 'Qwen'은 미국 모델과 달리 우르두어, 벵골어 같은 '학습자원이 적은 언어'에도 능숙하게 훈련되어 있다. 반면, 미국 AI 모델들은 대부분 영어 중심의 데이터로 훈련되었다. 그리고 무엇보다 중국 모델의 낮은 운영 비용은 전 세계 기업들에게 매력적인 요소로 작용한다.
그렇다고 해서 중국 모델이 세계 시장을 단숨에 장악할 것이라고 보기는 어렵다. 미국의 AI는 여전히 중국이 따라잡지 못한 여러 기술적 우위를 유지하고 있다. 구글의 한 연구 프로젝트에서는 사용자의 웹 브라우저를 '제미나이'(Gemini) 챗봇에 직접 연결해 AI 에이전트가 웹과 상호작용할 수 있도록 하는 가능성을 실험 중이다.
앤트로픽과 오픈AI의 챗봇들은 단순히 코드를 작성하는 데 그치지 않고, 직접 실행하고 결과를 제공하는 기능을 지원한다. 예를 들어, '클로드'는 전체 애플리케이션을 구축하고 호스팅할 수도 있다. 또한, 복잡한 문제 해결 방식이 반드시 '단계별 추론'만 있는 것은 아니다. 위에서 언급한 수학 문제를 기존 버전의 챗GPT에 물으면, 모델은 직접 논리를 전개하는 것이 아니라 간단한 프로그램을 작성해 실행하는 방식으로 답을 찾아낸다.
오픈AI의 샘 올트먼은 곧 새로운 혁신을 발표할 예정이며, 이 중 하나는 "박사급 슈퍼 에이전트" AI로, 다양한 지적 작업에서 인간 전문가와 동등한 수준의 성능을 발휘하는 AI가 될 것이라고 예고하고 있다. 미국 AI 기업들이 중국 AI의 급성장에 의해 위협을 받고 있는 것은 사실이지만, 이러한 경쟁이 오히려 미국 AI의 더 빠른 혁신을 촉진하는 계기가 될 가능성도 크다.
미국 주식시장을 필두로 전 세계 금융시장이 중국발 'AI 쇼크'로 요동쳤습니다. 중국 AI 개발사 '딥시크'(DeepSeek)가 출시한 AI는 성능은 챗GPT 등 미국의 AI에 버금가는데, 개발 비용은 10분의1 이하라고 합니다. 컴퓨팅 소스도 절약해 쓰고 반도체 칩도 고가의 최첨단 칩을 사용하지 않는다고 합니다. 1월 25일에 발간된 이코노미스트의 이 '브리핑' 기사는 중국 AI 개발환경이 어떤 점에서는 서방보다 더 개방적이라고 합니다. 또한 다른 점에서는 더 폐쇄적이기도 하다고 합니다. 챗GPT 같은 기업들은 AI 기술 정보를 어떻게든 감추려 하는데, 중국 기업들은 개방해서 서로 공유하고 경쟁하는 분위기가 있는 것이 장점입니다. 흥미로운 것은 중국산 AI가 정치적인 부분 등에 검열이 있는데, 이것이 상업적으로 장점이 될 수도 있다고 합니다. 예컨대, 삼성이나 애플이 갤럭시 스파트폰, 아이폰을 중국에 판매할 경우 챗GPT 같은 미국 AI를 장착했다가 중국의 검열에 걸릴 가능성이 있기 때문에 애초부터 중국산 AI를 장착하는 것이 유리하다는 것입니다. 또한 훈련 비용이 높아서 챗GPT 같은 미국산 AI는 주로 영어 소소를 훈련 재료로 삼지만, 훈련 비용이 낮은 중국산 AI는 영어 외에도 사용자가 적은 수많은 언어들로도 훈련이 가능해 글로벌사우스 사람들도 쉽게 접근할 수 있을 것이라고 합니다. 늘 경쟁시장을 중시해온 이코노미스트는 중국 AI의 도전을 환영하고 있습니다. AI 시장이 미국 기업들에 의해 독점되는 것을 막고 서로 경쟁하면서 발전하게 될 것이라고 기대하는 것입니다. 중국의 '응용과학' '공학' 부문 연구개발 역량의 약진은 놀랍습니다. 응용과학, 공학은 미중 패권경쟁의 최전선입니다. 우수한 인재가 의과대학으로 몰리는 한국을 되돌아 보게 됩니다.