AI 설계의 '표준'이 흔들린다 — 최신 논문 5편이 가리키는 전환점

파트 1: AI 설계의 '표준'에 금이 가기 시작했습니다

지난 몇 주 사이, 애플·바이트댄스·메타·칭화대 등 세계 주요 AI 연구 기관들이 거의 동시에 흥미로운 논문들을 발표했습니다. 공통점이 있습니다. 지난 2년간 AI 업계의 사실상 표준이었던 트랜스포머(transformer, 현재 대부분의 AI 언어 모델이 사용하는 기본 구조)와 자기회귀(autoregressive, 단어를 왼쪽부터 순서대로 생성하는 방식) 설계를 각자의 방식으로 재검토하고 있다는 점입니다.

토큰을 읽는 방식, 처음부터 다시 — Apple TIDE

AI가 문장을 이해할 때, 각 단어(토큰(token, AI가 언어를 처리하는 최소 단위))는 맨 처음 딱 한 번만 숫자로 변환(임베딩)되고 이후 계층을 거쳐도 그 정보는 그대로입니다. 애플 연구팀은 이 '1회 변환' 전제를 뒤집었습니다. TIDE라 불리는 이 접근법은 모델의 매 처리 단계마다 토큰 인덱스(token index, 토큰의 고유 번호)를 다시 주입하는 방식으로 희귀한 단어나 긴 문맥에서 발생하는 정보 손실 문제를 동시에 해결하는 것으로 보입니다. (출처: https://arxiv.org/abs/2605.06216)

텍스트도 '잡음 걷어내기'로 생성한다 — ByteDance Cola DLM

이미지 생성 AI에서 주로 쓰이던 디퓨전(diffusion, 잡음을 걷어내며 결과물을 만드는 방식) 방식을 텍스트 생성에 본격 도입한 시도가 나왔습니다. 바이트댄스의 Cola DLM은 약 20억 개 파라미터(parameter, AI 모델의 학습 가능한 수치 단위) 규모로, 8개의 주요 평가 기준에서 기존 자기회귀 방식 모델과 대등한 성능을 보였습니다. 텍스트 생성의 속도와 비용 구조가 달라질 가능성이 있습니다. (출처: https://arxiv.org/abs/2605.06548)

로봇 AI 훈련의 병목, 구조로 뚫다 — D-VLA

VLA 모델(Vision-Language-Action model, 시각·언어·행동을 통합한 로봇·에이전트용 AI)을 수십억 개 이상의 파라미터 규모로 키우려면 강화학습(RL, 시행착오로 스스로 학습하는 방법) 훈련이 극도로 비효율적이었습니다. 칭화대·Tencent 공동 연구팀의 D-VLA는 작업 공간을 평면으로 분리하고 4개의 흐름을 병렬 처리하는 파이프라인으로 이 병목을 해결, 조(兆) 단위 파라미터에서도 성능이 선형으로 늘어남을 확인했습니다. (출처: https://arxiv.org/abs/2605.13276)

여러 번 검색하지 않아도 된다 — Meta SIRA

AI가 답변을 만들 때 여러 차례 문서를 검색하는 RAG(Retrieval-Augmented Generation, 외부 문서를 검색해 참고하는 방식) 방식은 강력하지만 느리고 복잡합니다. 메타의 SIRA는 이 다단계 검색을 단 한 번의 검색 행동으로 압축했습니다. 별도의 추가 학습 없이도 기존 고성능 검색 방식과 에이전트 RAG를 동시에 앞서는 결과를 보였습니다. (출처: https://arxiv.org/abs/2605.06647)

GPU 한 장으로 분 단위 영상 실시간 생성 — Helios 14B

동영상 생성 AI는 고성능 GPU(그래픽 처리 장치)가 여러 장 필요하다는 인식이 일반적이었습니다. Helios 14B는 H100 GPU 한 장만으로 초당 19.5프레임, 분 단위 길이의 영상을 실시간으로 만들어냈습니다. 속도를 높이기 위해 흔히 쓰이는 캐싱(caching, 계산 결과를 임시 저장해 재활용)이나 양자화(quantization, 모델을 압축해 가볍게 만드는 기법) 없이, 순수하게 아키텍처(architecture, 모델의 내부 구조 설계) 혁신만으로 달성한 결과로 보입니다. (출처: https://arxiv.org/abs/2603.04379)

파트 2: 총정리

한 줄 요약: 애플·바이트댄스·메타 등이 거의 동시에 발표한 5편의 논문이 AI 설계의 '표준'을 각기 다른 각도에서 흔들고 있습니다.

애플 TIDE는 토큰 처리의 가장 기본적인 전제를 바꿔 AI가 희귀 단어와 긴 문맥을 더 잘 다루게 할 가능성이 있습니다.
바이트댄스 Cola DLM은 이미지 생성에 쓰이던 '잡음 제거' 방식으로 텍스트를 생성해, 자기회귀 방식의 대안이 될 가능성을 보여줍니다.
칭화대 D-VLA와 메타 SIRA는 각각 로봇 AI 훈련과 문서 검색의 효율을 구조적으로 개선해 더 실용적인 AI를 만드는 데 기여할 것으로 보입니다.
Helios 14B는 동영상 생성에 필요한 하드웨어 장벽을 크게 낮춰, 앞으로 더 많은 서비스에서 영상 생성 기능을 쉽게 접하게 될 가능성이 있습니다.
이 다섯 가지 흐름은 모두 '트랜스포머 중심 일원화 설계'에서 벗어나 더 다양하고 효율적인 AI 구조로의 전환이 시작되고 있음을 시사합니다.

오늘 이것만 기억하세요: AI 업계가 지난 2년간 당연하게 여겼던 설계 방식에 동시다발적으로 의문을 제기하고 있습니다. 당장 체감하기는 어렵지만, 이 논문들이 제품으로 이어지면 더 빠른 동영상 생성, 더 정확한 AI 답변, 더 저렴한 AI 서비스라는 형태로 우리 일상에 닿을 가능성이 있습니다.

용어 설명

트랜스포머: 현재 대부분의 AI 언어 모델이 사용하는 기본 구조. 문장 내 단어들의 관계를 계산해 언어를 이해·생성합니다.

토큰: AI가 언어를 처리할 때 사용하는 최소 단위. 단어 혹은 단어의 일부에 해당합니다.

임베딩: 단어나 토큰을 숫자 벡터(좌표)로 변환하는 과정. AI가 언어를 수학적으로 처리할 수 있게 해 줍니다.

디퓨전 모델: 노이즈(잡음)를 점진적으로 걷어내면서 결과물을 만들어 내는 AI 생성 방법. 이미지·오디오 생성에 주로 사용됩니다.

VLA 모델: Vision-Language-Action 모델. 시각 정보와 언어를 동시에 이해해 로봇이나 에이전트가 행동을 결정하도록 돕습니다.

RAG: Retrieval-Augmented Generation. AI가 답변을 만들 때 외부 문서를 검색해 함께 참고하는 방식입니다.

자기회귀: AI가 텍스트를 왼쪽부터 오른쪽으로 한 토큰씩 순서대로 생성하는 방식. GPT 계열 모델이 대표적입니다.

강화학습: AI가 수많은 시행착오를 통해 보상을 최대화하는 방향으로 스스로 학습하는 방법입니다.