AI가 웹을 대신 써준다고? 오픈소스 웹 에이전트 MolmoWeb 등장
2026년 4월, 웹 페이지를 눈으로 보고 클릭·입력·검색을 직접 수행하는 오픈소스 AI 에이전트 MolmoWeb이 공개됐습니다. 빅테크 독점 없이 누구나 쓸 수 있는 웹 에이전트 시대가 열릴 가능성이 있습니다.
파트 1: AI가 직접 마우스를 움직인다
여러분, 인터넷에서 항공권을 찾을 때 어떻게 하시나요? 여러 사이트를 열고, 날짜를 입력하고, 가격을 비교하고, 결제 버튼을 누르죠. 꽤 손이 많이 가는 작업인데요.
2026년 4월, 이 번거로운 과정을 AI가 대신 해줄 수 있는 논문이 arxiv에 등재됐습니다. 바로 MolmoWeb입니다. (출처: arXiv:2604.08516, 2026-04-09)
MolmoWeb이 뭐가 다른가요?
기존 웹 에이전트는 HTML 코드를 '읽어서' 동작했습니다. 하지만 사람은 웹 페이지를 '보고' 행동하죠. MolmoWeb은 VLM(시각-언어 모델)을 활용해 스크린샷을 그대로 입력받아 '어디를 클릭할지', '무엇을 입력할지'를 결정합니다.
표준 웹 에이전트 벤치마크에서 최고 성능(state-of-the-art)을 달성했고, 가장 중요한 점은 모델과 학습 데이터셋을 모두 오픈소스로 공개했다는 것입니다. 지금까지 고성능 웹 에이전트는 Google·OpenAI 같은 빅테크 내부 시스템에만 있었는데, 이제 연구자·개발자 누구나 직접 재현하고 개선할 수 있게 됐습니다.
같은 주에 쏟아진 에이전트 논문들
MolmoWeb만이 아닙니다. 같은 기간 두 편의 관련 논문도 눈에 띄었는데요.
- MARL-GPT (arXiv:2604.05943, 2026-04-07): 여러 AI 에이전트가 협력하는 멀티 에이전트 강화학습을 위한 파운데이션 모델입니다. 지금까지는 태스크마다 따로 훈련해야 했지만, 대규모 사전학습 한 번으로 협력·경쟁 과제 모두에서 일반화할 수 있다는 가능성을 보여줍니다.
- MemMachine (arXiv:2604.04853, 2026-04-06): AI 에이전트가 긴 대화를 거치면서 검증된 사실을 잊거나 왜곡하는 문제를 해결합니다. '기억의 신뢰성'을 보장하는 메모리 시스템으로, 개인화 AI 비서의 실용성을 높일 것으로 보입니다.
세 논문을 합쳐 보면 하나의 방향이 보입니다. AI 에이전트가 보고(MolmoWeb), 협력하고(MARL-GPT), 기억하는(MemMachine) 세 가지 능력을 동시에 갖추는 방향으로 연구가 수렴하고 있는 것이죠.
우리 생활에는 어떤 영향이 있을까요?
아직 직접 체감하기는 어렵지만, 1~2년 내 이런 시나리오가 가능해질 가능성이 있습니다.
- "저렴한 항공권 찾아서 예약해 줘" → AI가 여러 여행 사이트를 직접 열고, 비교해서, 최적 옵션을 알려주거나 예약까지 완료
- "지난번에 내가 원했던 조건 기억해서 쇼핑 도와줘" → 과거 대화 기억을 유지한 채 개인 맞춤 검색
반면 AI가 내 계정과 웹 세션에 접근한다는 의미이기도 해서, 개인정보·보안 우려도 함께 커질 가능성이 있습니다.
파트 2: 총정리
한 줄 요약: AI가 웹 페이지를 '보고' 대신 써주는 오픈소스 에이전트 MolmoWeb이 등장했고, 같은 주에 협력·기억 능력을 보완하는 논문들도 함께 나왔습니다.
- MolmoWeb은 스크린샷을 보고 클릭·입력·스크롤을 수행하는 시각적 웹 에이전트로, 표준 벤치마크 최고 성능을 오픈소스로 공개
- MARL-GPT는 여러 AI 에이전트가 한 번의 사전학습으로 다양한 협력·경쟁 과제를 수행할 수 있는 파운데이션 모델 제안
- MemMachine은 AI 에이전트가 검증된 사실을 잊거나 왜곡하지 않도록 메모리 신뢰성을 보장하는 시스템
- 세 논문 모두 2026년 4월 첫 주 arXiv 등재 — '보고·협력·기억'하는 자율 에이전트 연구가 빠르게 수렴 중
- 편의성은 높아지지만, AI가 내 웹 계정에 접근한다는 보안·개인정보 우려도 함께 고려해야 할 것으로 보입니다
오늘 이것만 기억하세요: AI가 웹을 대신 쓰는 시대는 먼 미래가 아니라, 지금 논문으로 쏟아지고 있는 '가까운 미래'입니다.
용어 설명
웹 에이전트 — 사람 대신 웹 브라우저를 조작해 정보를 찾거나 작업을 완료해 주는 AI 시스템
VLM(시각-언어 모델) — 텍스트뿐 아니라 이미지나 화면 스크린샷도 이해하고 처리할 수 있는 AI 모델
파운데이션 모델 — 대규모 데이터로 미리 훈련돼 다양한 과제에 범용으로 활용할 수 있는 대형 AI 모델
벤치마크 — AI 성능을 표준 기준으로 비교·측정하는 테스트 세트