송상훈 과학기술정보통신부 정보통신정책실장이 지난해 8월 4일 서울 종로구 정부서울청사에서 독자 AI 파운데이션 모델 프로젝트 정예팀 선정 결과를 브리핑하고 있다. 연합뉴스정부가 '국가대표 AI'를 육성하겠다며 추진 중인 독자 AI 파운데이션 프로젝트가 소버린(주권) 논란에 휘말렸다. 해외 빅테크 의존을 벗어나기 위해 출범한 사업에서 일부 참여 기업이 중국 AI 모델을 활용한 사실이 알려지면서, 이를 과연 '프롬 스크래치(처음부터 직접 설계한 모델)'로 볼 수 있느냐는 논쟁이 확산하고 있다.
특히 오는 15일 1차 성능 평가 마감을 앞두고 탈락 기업 한 곳을 가려내야 하는 시점에 논란이 불거지면서, 정부가 독자성 판단 기준을 제시해 논란을 정리할 수 있을지에 관심이 쏠린다.
국대 AI 평가 앞두고 '독자성' 논란 확산…"부수 기능" vs "핵심"
과학기술정보통신부는 지난해 8월 네이버클라우드와 업스테이지, SK텔레콤, NC AI, LG AI연구원 등 5곳을 국가대표 AI 개발 기업으로 선정해 독자 AI 모델 개발을 진행 중이다. 해외 빅테크 모델에 휘둘리지 않고, 국방·의료·행정 등 민감하고 국민 생활과 직결된 영역에서 독자적으로 쓸 수 있는 AI 모델을 확보하겠다는 취지로 기획됐다. 정부는 이들 5개 팀이 개발한 모델을 이달 15일까지 평가한 뒤, 이달 중 한 곳을 탈락시킬 계획이다.
논란은 앞서
지난 1일 업스테이지가 중국 AI 모델을 도용했다는 주장이 제기되며 촉발됐다. 이후 해당 주장을 제기한 측이 "검증이 엄밀하지 못했다"며 사과하면서 일단락되는 듯했지만,
네이버클라우드가 멀티모달 AI 모델 개발 과정에서 중국 AI 모델을 활용한 사실이 알려지면서 다시 불이 붙었다.
네이버 제공네이버클라우드는 자사의 '하이퍼클로바X-띵크-32B 및 옴니-8B' 모델에 중국 알리바바가 개발한 '큐웬(Qwen) 2.5'의 비전·오디오 인코더와 가중치를 사용한 사실을 인정했다. 비전·오디오 인코더는 이미지와 음성 정보를 AI가 이해할 수 있는 데이터 형태로 변환하는 역할을 한다.
논란의 핵심은 이들이 차용한 인코더와 가중치가 독자 AI의 핵심 기술로 볼 수 있느냐는 점이다. 네이버 측은 해당 인코더가 독자 파운데이션 모델의 '부수적인 기능'에 해당할 뿐, 모델의 핵심 판단과 추론을 담당하는 구조는 독자적으로 설계했다는 입장이다. 외부 모델 사용 사실을 사전에 공개했고, 오픈소스 라이선스에도 문제가 없다는 점도 강조하고 있다.
다만 업계에서는 멀티모달 AI 특성상 인코더가 단순한 입력 장치에 그치지 않는다는 반론이 적지 않다. 멀티모달 AI는 텍스트뿐 아니라 이미지와 음성까지 함께 인식해 처리하는 모델로, 시각과 청각 정보를 담당하는 인코더가 정보를 어떻게 추상화하느냐에 따라 모델의 이해 방식과 출력 결과가 사실상 결정된다는 것이다.
특히 타 모델의 가중치까지 함께 차용할 경우, 해당 인코더가 학습한 데이터와 판단 기준이 그대로 반영돼 모델의 의사결정 구조 자체에 영향을 미칠 수 있다는 점에서 문제의 핵심으로 지적된다. 가중치는 AI가 학습을 통해 형성한 판단 기준을 수치로 저장한 것으로, 모델의 '생각하는 방식'을 좌우하는 핵심 요소로 여겨진다.
한 업계 관계자는 "네이버가 강조해온 것은 단순한 추론 모델이 아니라 이미지와 음성을 함께 처리하는 '옴니모델'"이라며
"눈과 귀가 달린 모델을 강조해놓고 비전·오디오 인코더는 검증된 외국 모델을 차용했다는 점은 소버린 AI를 표방한 프로젝트 취지와는 부합되지 않는다"고 지적했다.
또 다른 업계 관계자도 "멀티모달 AI의 인코더는 단순히 데이터를 전달하는 장치가 아니라, 시각·음성 정보를 해석하고 추상화하는 독립적인 학습 구조"라며 "인코더가 데이터를 해석하는 방식인 가중치를 그대로 가져온 것은 독자 모델이라고 보기 어렵다는 것이 업계의 시각"이라고 말했다.
중국 AI 모델을 활용한 점 자체가 소버린 AI의 방향성과 맞지 않는다는 비판도 제기된다. 현재는 오픈소스로 무료 사용이 가능하지만, 향후 라이선스 정책이 변경되거나 상업적 조건이 강화될 경우 사용료 부담이나 기술 종속으로 이어질 수 있다는 우려다. AI 업계 관계자는
"외국 모델을 가져다 쓰면 장기적으로는 해당 모델의 정책 변화에 영향을 받을 수밖에 없어 독자 AI 개발이라는 사업 취지와 어긋난다"고 말했다.
'프롬 스크래치' 기준 부재…'독자 AI 기준선' 가를 분기점
이처럼 업계의 이견이 쉽게 정리되지 않는 배경으로는
'프롬 스크래치'에 대한 명확한 판단 기준이 마련돼 있지 않다는 점이 꼽힌다. 특히 멀티모달 AI의 경우 인코더 사용은 허용되는지, 가중치 차용은 어디까지 가능한지, 텍스트·이미지·음성 등 구성 요소 가운데 무엇을 핵심으로 볼 것인지에 대한 구체적인 기준이 사실상 없는 상황이다. 이는 전 세계적으로도 아직 합의된 정의가 없는 회색지대로 평가된다.
다만 업계에서는 깃허브(GitHub) 등 글로벌 오픈소스 커뮤니티를 중심으로 프롬 스크래치 여부를 '가중치를 직접 학습했는지'를 기준으로 판단해야 한다는 힘을 얻고 있다.
과기부가 지난해 공개한 사업 공모 안내서에는 "해외 AI 모델을 파인튜닝(미세조정)해 만든 파생형 AI 모델은 독자 파운데이션 모델로 간주하지 않는다"고만 명시돼 있다. 다만, 멀티모달 모델에서 인코더와 가중치 활용 범위를 어디까지 허용할 수 있는지에 대해서는 구체적인 기준이 제시돼 있지 않아, 해석의 여지를 남겨두고 있다.
논란이 이어지는 가운데, 이번 심사 결과가
독자 AI의 범위와 기준을 어디까지 설정할지에 대한 정부의 판단을 보여주는 계기가 되어야 한다는 지적이 나온다. 이런 가운데
배경훈 부총리 겸 과학기술정보통신부 장관과 하정우 대통령실 AI미래기획수석은 전날 사업 목적과 기술적 관점에 입각한 엄격하고 투명한 심사를 주문한 것으로 전해졌다. 배 부총리는 같은 날 자신의 소셜미디어(SNS)를 통해 "최근 독자 AI 파운데이션 모델이 프롬 스크래치인지 여부를 둘러싼 논쟁도 있지만, 세계적인 수준의 AI 모델에 대한 도전은 계속되고 있다"면서 "평가는 객관적이고 공정하게 진행될 것이며, 윤리적인 부분에서도 모두가 공감할 수 있는 수준이어야 비로소 'K-AI'라는 타이틀을 유지할 수 있을 것"이라고 강조했다.