이번 주 AI 논문 5선: '도구'에서 '자율 전문가'로 진화하는 에이전트

파트 1: AI가 '한 번에 답하는 도구'에서 '스스로 고치는 전문가'로

이번 주 arXiv에 올라온 AI 논문들을 훑어보면 하나의 흐름이 눈에 들어옵니다. AI가 더 이상 질문을 받고 한 번에 대답하는 데 그치지 않고, 스스로 계획을 세우고, 실행하고, 틀리면 고쳐서 다시 시도하는 방식으로 바뀌고 있다는 것입니다. 이른바 에이전트 루프입니다.

검색도 에이전트가 한다

Meta Superintelligence Labs가 5월 7일 발표한 논문은 '초지능 검색 에이전트'라는 개념을 제안합니다. 기존 RAG(검색 증강 생성) 시스템은 검색과 추론이 분리되어 있었는데, 이 논문은 검색 자체를 에이전트의 추론 루프 안에 넣었습니다. 쉽게 말해, AI가 "이 정보가 부족하니 다시 찾아보자"고 스스로 판단한다는 뜻입니다. (출처: arxiv.org/abs/2605.06647)

120B 모델인데 12B만 쓴다

NVIDIA의 Nemotron 3 Super는 총 1,200억 개 파라미터를 가졌지만, 실제로 한 번에 활성화되는 건 120억 개뿐입니다. MoE(Mixture-of-Experts, 전문가 혼합) 구조에 Mamba라는 새로운 아키텍처를 결합했는데, 에이전트 추론 벤치마크에서 같은 크기의 밀집 모델 대비 10배 효율을 달성했습니다. 비용은 줄이면서 에이전트 성능은 유지하는 길이 열리고 있는 셈입니다. (출처: arxiv.org/abs/2604.12374)

코딩 대회에서 Grandmaster 수준 도달

GrandCode라는 시스템은 에이전트 강화학습(Agentic RL)으로 경쟁 프로그래밍에서 Grandmaster 등급에 도달했습니다. 핵심은 문제를 한 번에 풀려 하지 않고, 문제 분해→코딩→테스트→디버깅→재시도 루프를 반복한다는 점입니다. 단순히 코드를 생성하는 AI와는 질적으로 다른 접근입니다. (출처: arxiv.org/abs/2604.02721)

AI가 물리학 미해결 문제를 풀었다

Google Research 팀은 AI가 이론물리학의 미해결 문제를 자율적으로 풀어낸 사례를 보고했습니다. 신경-기호(neuro-symbolic) 접근을 통해 수학적 발견 과정 자체를 자동화한 것입니다. 경쟁 문제풀이를 넘어 진짜 연구를 AI가 할 수 있다는 가능성을 보여주는 사례로 주목됩니다. (출처: arxiv.org/abs/2603.04735)

올림피아드에서 연구로

또 다른 논문은 IMO(국제수학올림피아드) 금메달 수준의 AI가 실제 수학 연구로 나아가기 위해 무엇이 필요한지를 체계적으로 정리했습니다. 대회 문제풀이와 진짜 연구 사이의 간극을 메우는 프레임워크를 제시하고 있습니다. (출처: arxiv.org/abs/2602.10177)

파트 2: 총정리

한 줄 요약: 이번 주 AI 논문의 키워드는 '에이전트 루프' — AI가 한 번에 답하는 것이 아니라, 스스로 계획·실행·수정을 반복하며 전문가 수준에 도달하고 있습니다.

검색의 진화: Meta가 검색을 에이전트 추론 루프에 통합하는 아키텍처를 제안했습니다
효율의 진화: NVIDIA가 MoE + Mamba 구조로 에이전트 추론 효율을 10배 높였습니다
코딩의 진화: 에이전트 강화학습으로 코딩 대회 Grandmaster 수준에 도달했습니다
과학 발견의 진화: AI가 이론물리학 미해결 문제를 자율적으로 풀어냈습니다
연구의 진화: 올림피아드 문제풀이를 넘어 실제 수학 연구로의 전환 프레임워크가 제시되었습니다

오늘 이것만 기억하세요: AI가 '똑똑한 도구'에서 '스스로 고치고 발견하는 전문가'로 바뀌고 있습니다. 한 번에 완벽한 답을 내놓는 게 아니라, 계속 시도하고 수정하는 에이전트 방식이 그 핵심입니다.

용어 설명

에이전트 루프: AI가 한 번에 답하지 않고, 계획→실행→검증→수정을 반복하며 스스로 결과를 개선하는 작동 방식
MoE(Mixture-of-Experts): 하나의 거대 모델 안에 여러 '전문가' 모듈을 두고, 질문에 따라 일부만 활성화하는 효율적 구조. 전체가 동시에 작동하지 않아 비용이 줄어든다
강화학습(Reinforcement Learning): AI가 시행착오를 반복하며 보상을 최대화하는 방향으로 스스로 학습하는 방법. 게임이나 코딩처럼 정답 여부를 바로 확인할 수 있는 과제에 효과적