Gemini·Mistral·GPT — AI 모델, '똑똑함'을 넘어 '직접 행동'하는 단계로

파트 1: AI 모델에 '눈'과 '손'이 생기다

Gemini 3.5 Flash, 화면을 '보고 조작'하다

6월 24일, Google이 Gemini 3.5 Flash에 컴퓨터 사용(Computer Use)을 빌트인 도구로 추가했습니다. 이전까지 컴퓨터 사용 기능은 별도의 특수 모델(Gemini 2.5 Computer Use 모델)에서만 가능했는데, 이제는 범용 모델 안에 기본 탑재된 겁니다. (출처: blog.google)

이게 왜 중요할까요? 에이전트가 웹 브라우저, 앱, 운영체제 화면을 직접 보고 클릭하고 입력할 수 있게 됐다는 뜻입니다. OSWorld-Verified 벤치마크(실제 컴퓨터 환경에서 주어진 작업 수행 능력 측정)에서 78.4%를 달성했습니다. 100만 토큰 입력 컨텍스트를 지원하고, 에이전트 코딩(Terminal-bench 2.1) 76.2%, 다단계 워크플로우(MCP Atlas) 83.6% 등 전반적으로 강력한 수치를 기록했습니다.

실무적으로 보면, 개발자는 UI 테스트 자동화나 반복적인 화면 작업을 에이전트에게 맡길 수 있고, 일반 사용자도 "이 화면에서 이렇게 해줘"라고 말하면 AI가 대신 처리하는 시나리오가 현실에 한 발 더 가까워진 셈입니다.

같은 흐름에서, Google은 6월 22일 Interactions API도 정식 출시(GA)했습니다. Gemini 모델과 에이전트를 하나의 통합 엔드포인트로 묶어, 서버 사이드 상태 관리·백그라운드 실행·도구 조합·멀티모달 생성을 지원합니다. 개발자 입장에서는 에이전트를 만드는 진입장벽이 한 단계 낮아진 거죠. (출처: blog.google)

Mistral OCR 4 — 문서를 '읽는' 것에서 '이해하는' 것으로

6월 23일, Mistral AI가 OCR 4를 출시했습니다. 단순히 이미지에서 텍스트를 뽑아내는 수준을 넘어, 문서의 구조 자체를 이해하는 모델입니다. (출처: mistral.ai/news/ocr-4/)

핵심 변화는 세 가지입니다. 첫째, 바운딩 박스(Bounding Box, 텍스트 위치를 사각형으로 표시)로 문서의 어디에 뭐가 있는지 정확히 잡아줍니다. 둘째, 블록 분류(Block Classification)로 '이건 제목, 이건 표, 이건 수식, 이건 서명'처럼 문서 요소의 종류를 구분합니다. 셋째, 인라인 신뢰도 점수(Confidence Score)로 "이 부분은 98% 확신, 이 부분은 72% — 사람이 확인해주세요"라고 알려줍니다.

성능도 압도적입니다. 문서 OCR 벤치마크 OlmOCRBench에서 85.20으로 1위, 독립 평가자 기준 경쟁 제품 대비 72% 승률을 기록했습니다. 170개 언어를 지원하고, 특히 저자원(low-resource) 언어에서 강점을 보입니다. 가격은 API 기준 1,000페이지당 $4, 배치 처리 시 50% 할인($2)입니다. 단일 컨테이너로 자체 호스팅이 가능해 기업 보안 요건도 충족합니다.

계약서, 청구서, 연구 보고서 등 문서를 다루는 모든 직군에 직접적인 영향을 줄 수 있는 업데이트입니다.

OpenAI Daybreak — AI가 보안 취약점을 '발견'하고 '패치'까지

6월 22일, OpenAI가 보안 도구 Daybreak와 GPT-5.5-Cyber 전체 버전을 공개했습니다. 이전까지 AI 보안 도구는 취약점을 '발견'하는 데 초점이 맞춰져 있었다면, 이번에는 엔드투엔드 패치 자동화(end-to-end patch automation)까지 영역을 확장했습니다. (출처: openai.com)

GPT-Rosalind(생명과학)에 이어 GPT-5.5-Cyber(보안)까지 — AI 모델이 범용에서 도메인 특화(Domain-Specific)로 빠르게 분화하고 있습니다. 보안 인력이 부족한 중소기업에게는 반가운 소식이지만, 같은 도구를 공격자도 활용할 수 있다는 점에서 양날의 검이기도 합니다.

xAI /goal — '보조'에서 '위임'으로, 자율 코딩의 다음 단계

같은 날(6월 22일), xAI도 Grok Build CLI에 /goal 모드를 도입했습니다. 기존 코딩 에이전트가 한 번에 하나의 작은 작업을 처리했다면, /goal은 장시간 자율 실행(long-running autonomous execution)으로 대규모 구현 작업을 에이전트에게 통째로 맡길 수 있습니다. (출처: x.ai/news/introducing-goal)

curl 한 줄로 CLI를 설치하고 계정에 로그인하면 바로 사용할 수 있습니다. "이 기능 전체를 구현해줘"라고 말하고 다른 일을 하다가 결과를 확인하는 워크플로우가 가능해진 거죠. 코드 작성 능력보다 코드 리뷰·검증 능력이 더 중요해지는 시대가 오고 있습니다.

파트 2: 총정리

한 줄 요약: AI 모델이 '대답하는 도구'에서 '직접 행동하는 에이전트'로 전환되고 있습니다 — 화면 조작, 문서 이해, 보안 패치, 자율 코딩까지.

컴퓨터 사용의 민주화: Gemini 3.5 Flash가 Computer Use를 빌트인으로 통합하면서, 화면 조작 에이전트가 별도 특수 모델 없이도 가능해졌습니다. 에이전트가 '눈'을 갖게 된 셈입니다.
문서 이해의 도약: Mistral OCR 4는 텍스트 추출을 넘어 문서 구조를 이해하고 신뢰도까지 제공합니다. 문서 업무 자동화의 실용성이 크게 향상되었습니다.
도메인 특화 가속: GPT-5.5-Cyber(보안), GPT-Rosalind(생명과학)처럼 AI 모델이 범용에서 전문 영역으로 빠르게 분화 중입니다.
자율 실행의 확대: xAI /goal처럼 장시간 자율 실행 모드가 도입되면서, AI 코딩 도구가 '보조'에서 '위임' 가능한 수준으로 진화하고 있습니다.

오늘 이것만 기억하세요: AI 모델을 고를 때 '벤치마크 점수'보다 '내 업무에서 직접 행동할 수 있는가'를 기준으로 평가하는 시대가 왔습니다.

용어 설명

컴퓨터 사용(Computer Use): AI가 사람처럼 화면을 보고, 마우스를 움직이고, 키보드를 입력해서 실제 프로그램을 조작하는 기능. '눈'과 '손'이 있는 AI라고 생각하면 됩니다.
OCR(Optical Character Recognition): 이미지나 PDF 속 글자를 디지털 텍스트로 변환하는 기술. 종이 문서를 스캔해서 검색 가능하게 만드는 것이 대표적입니다.
바운딩 박스(Bounding Box): 이미지 안에서 특정 요소(글자, 표, 그림 등)의 위치와 크기를 사각형으로 표시하는 것. 문서의 어디에 뭐가 있는지 정확히 알려줍니다.
엔드투엔드(End-to-End): 시작부터 끝까지 하나의 시스템이 전체 과정을 처리하는 것. 여기서는 취약점 발견부터 패치 적용까지 AI가 한 번에 처리한다는 뜻입니다.
자율 실행(Autonomous Execution): 사람의 개입 없이 AI가 주어진 목표를 향해 스스로 판단하고 작업을 수행하는 것. 중간에 질문하지 않고 결과만 돌려줍니다.