전 세계 기업들이 AI 최신 개발 동향을 따라잡기 위해 치열하게 경쟁하고 있는 가운데, 중국의 DeepSeek가 지난 1월 23일 대규모 언어 모델(LLM) ‘R1’을 출시하며 시장에 큰 반향을 불러일으켰습니다.
DeepSeek-R1의 출시가 미치는 광범위한 영향을 이해하기 위해, GLG의 Evan Moore가 William Fong 박사와 대담을 나누었습니다. Fong 박사는 26년 이상 Microsoft에서 근무하며, 회사의 AI 및 디지털 혁신 사업을 이끈 업계 베테랑입니다.
다음은 대담의 주요 내용을 요약한 것입니다.
DeepSeek에서 사용한 ‘Mix of Experts (MoE)’에 대해 설명해 주실 수 있을까요? 기존 대규모 언어 모델 대비 장점과 약점은 무엇인가요?
일반적으로 소규모 언어 모델을 가지고, 수학과 같은 특정 분야의 전문가(expert)가 되도록 훈련시킨 후, 수학 관련 질문이 있으면, 그 모델을 활용하죠. 하지만 DeepSeek는 같은 작업을 이들이 공개한 대규모 언어 모델 내에서 처리합니다. DeepSeek의 경우 6,710억 개의 파라미터 안에 여러 유형의 전문가가 포함되어 있죠. 이는 사용자에게는 장점이라 할 수 있습니다. 여러 개의 모델을 찾아다닐 필요 없이, 하나의 모델만 사용하면 되고, 여기서 매우 정밀한 결과를 얻을 수 있으니까요.
다른 장점들도 있습니다. 모델 내 특정 전문가를 사용할 경우, 전체 파라미터를 사용하는 게 아니죠. 해당 전문가가 속한 부분만 사용하기 때문에, 반응 속도, 추론 속도, 비용, 이 모든 게 감소하게 됩니다. 6,710억 개의 파라미터를 무작위로 탐색하는 게 아니기 때문에 고성능 칩을 사용할 필요도 없습니다. 질문의 주제를 정확하게 이해하기 때문에, 어떤 전문가를 사용해야 하는지 알고 있는 거죠.
물론 단점도 있습니다. 전문가의 수가 늘어나면 연산이 복잡해지고, 비용이 증가하며, 지연이 발생할 수 있습니다. 사용자가 한 명이 아니다 보니, 다수의 전문가가 동시에 작업을 수행하고, 동시에 활성화되는 파라미터의 수도 많아질 테니까요. 이 점을 기억해야 합니다. 이 모델은 누구든, 어느 순간이든, 어디선가 서버를 이용해 추론하는 사람을 지원한다는 거죠. 다수의 전문가가 작업을 하게 되면, 이를 관리하고 조율하는 것이 어려워질 수 있습니다.
결국, 균형이죠. DeepSeek의 경우 여러 작업을 수행할 수 있는 하나의 모델로 높은 유연성과 적응성을 제공한다는 장점이 있습니다. 특히, 특정 분야에 맞춰 훈련된 여러 전문가를 보유하고 있다는 데 강점이 있죠. 하지만 유지의 어려움이 커질 수밖에 없습니다. 게다가 전문가의 수가 늘어날수록, 연산량은 늘어나고 트래픽 제어도 더욱 복잡해지죠. 그러나 전반적으로 보면, DeepSeek의 방식에는 확실한 장점이 있다고 생각합니다.
DeepSeek의 비용 효율성이 생성형 AI 관련 지출, 모델 API 수익, 반도체 수요에 어떤 영향을 줄 것으로 생각하시나요?
저는 DeepSeek에서 말한 비용에 대해 매우 회의적으로 봅니다. 기업의 자본 지출과 동등하게 보기 어렵다고 생각해요. DeepSeek에서는 ‘이게 연산 비용이다’라고만 말하고 있습니다. 이건 학습 자료를 정리하고, 해당 자료를 모델에 사전 학습시키고, 약간의 미세 조정을 하는 데 들어간 비용이란 말이죠.
데이터 확보와 관련된 비용은 언급하지 않았습니다. 그 데이터가 비싼 건데 말이죠. 이와 관련된 비용은 공개된 바가 없습니다. 중요한 건 이겁니다. 데이터 비용, 간접비 등을 포함하는 전체 비용이 4~5배 더 비싸다고 하더라도, OpenAI는 현재 Operator 서비스에 대해 사용자당 월 200달러를 청구하고 있습니다. 하지만 앞으로 계속해서 같은 요금을 청구할 순 없을 테니 이 가격은 반드시 변하겠죠.
오픈 AI의 Operator보다 훨씬 더 저렴한 가격에 오퍼레이터를 만들 수 있습니다. 따지고 보면, Open AI의 Operator는 사용자의 화면을 보고, 브라우징 및 다른 작업을 수행할 수 있기 때문에 다르다고 할 수 있습니다. 좀 더 고도화된 기능을 갖추고 있죠. 하지만 두고 보세요. 앞으로 6개월 후면, DeepSeek Operator 같은 서비스가 나오고, 가격은 사용자당 월 5달러 정도일 겁니다. 아니면 DeepSeek Mathematician 같은 모델을 월 5달러나 2달러에 출시하겠죠.
Copilot을 보세요. 처음에는 사용자당 월 30달러였습니다. 지금도 기업용은 30달러지만, 이건 방화벽을 사용해 개인정보와 데이터를 보호해 주기 때문입니다. 하지만 일반 사용자 가격은 월 3달러 수준입니다. Office 365에 가입해 있다면, 월 3달러만 추가해서 Office 365 Copilot의 전체 기능을 이용할 수 있죠. 이런 가격 하락 흐름세가 점차 강화되면서, 가격이 훨씬 저렴해질 것입니다.
가격과 관련해 또 하나 제기될 수 있는 질문은 GPU입니다. DeepSeek는 프론티어 연구를 한 게 아니라, 기존 기술을 활용한 거죠. 단순히 베낀 것만이 아니라, 하이퍼스케일러들이 사용한 기법들, Llamma 3에서 사용한 기술들을 활용하고, 이를 효율적으로 조직해 학습에 사용했습니다. H800을 사용했는지, GPU as a Service를 사용했는지, H100을 사용했는지, 누가 알겠어요? 그건 중요한 게 아닙니다. 효율적으로 학습을 최적화할 수 있었다는 게 중요하죠.
미래에는 H100이 필요하지 않을 수도 있습니다. 더 구형의 GPU를 가져다 동일한 작업을 할 수도 있습니다. 조금 더 시간이 오래 걸릴 뿐이겠죠. 아니면 Blackwell 칩에 50,000달러를 쓸 필요 없이, NVIDIA DIGITS 같은 Grace Blackwell 10이 들어 있는 3,000달러짜리 장치를 사서 여러 개 스택하는 것도 가능합니다. 젠슨 황도 최근 그런 내용을 발표했죠. 모든 사람이 H100을 쓸 필요가 있을까요? 제 생각엔 아니라고 봅니다. DeepSeek가 발표한 내용이 정확하고 투명하다고 가정한다면, 앞으로 DeekSeek가 백서에서 제시한 기법을 사용해 훨씬 더 적은 자원으로 많은 일을 해낼 수 있을 것입니다.
다른 모델이 DeepSeek를 따라잡거나 OpenAI의 o1 모델을 추월하는 데 얼마나 걸릴 거라 보시나요?
굉장히 빠를 겁니다. 이미 그런 모델이 있는 건 아닙니다. 지금 당장은 없어요. DeepSeek 파운데이션 모델의 차별점은 하나의 거대 파운데이션 모델이 아니라 여러 전문가를 조합한 MoE 모델을 바탕으로 구축되었다는 거죠. 이 파운데이션 자체가 변형된 것인데, DeepSeek는 Llama를 변형해 이를 구현한 겁니다. 이걸 다른 회사들, 특히 폐쇄형 모델을 운영하는 기업들도 할 수 있어요.
제가 보기엔 순식간에 o3, o4, Gemini 2, 2.1 등 온갖 모델들이 이러한 기능을 탑재하게 될 것입니다. MoE조차 제공하지 않는데 굳이 프론티어 모델을 선택할 이유가 있을까요? 연산 정밀도 최적화나 다중헤드잠재어텐션(Multi-head latent attention)과 같은 기능을 폐쇄형 모델에서 제공하지 않는다면, 결국 시장에서 큰 비즈니스 기회를 놓치게 될 것입니다. 그렇기 때문에 내일 당장, 다음 주, 다음 달이 아니더라도 곧 이런 기능들이 업데이트될 것이라 생각합니다.
William Fong
William Fong 박사는 2022년 9월까지 Microsoft의 AI 디지털 혁신 글로벌 솔루션 전략 책임자(Global Solution Strategy Director for AI Digital Transformation)를 지냈습니다. 클라우드 솔루션과 AI 기반 고객 솔루션의 제품 혁신 및 인큐베이션, Modern Workplace 사업 부문 시장 진출 전략을 이끌며, Microsoft의 엔터프라이즈 고객을 위해 AI 및 디지털 혁신 워크플로우를 지원했습니다. 이에 앞서 Microsoft에서 26년 동안 다양한 고위직을 역임했으며, 현재는 AI 및 디지털 혁신 분야의 독립 컨설턴트로 활동하고 있습니다.
이 글은 2025년 1월 28일 개최된 GLG 텔레컨퍼런스 ‘DeepSeek의 생성형 AI 모델 시장 및 하이퍼스케일 투자에 대한 도전’에서 논의된 내용을 기반으로 작성되었습니다. 전체 텍스트를 열람하거나 Willian Fong 박사 및 다른 GLG 업계 전문가와 상담을 원하시는 경우, 아래로 문의해 주세요.
문의하기
궁금한 사항이 있으신가요? 연락처를 남겨주시면 GLG에서 연락드리겠습니다.