티스토리 뷰

반응형

3줄 요약

  1. OpenAI가 GPT-5.4를 ChatGPT, API, Codex에 동시 출시했습니다.
  2. 코딩(GPT-5.3-Codex)과 범용 추론(GPT-5.2)을 하나로 합치면서 컴퓨터 조작과 도구 검색까지 추가한 모델입니다.
  3. 토큰 효율이 크게 개선되었지만 API 토큰당 가격은 GPT-5.2 대비 소폭 올랐습니다.

제품 개요

2026년 3월 5일 OpenAI가 GPT-5.4를 공개했습니다. ChatGPT에서는 'GPT-5.4 Thinking'이라는 이름으로, API와 Codex에서는 'gpt-5.4'로 제공됩니다. 복잡한 작업에서 최고 성능이 필요한 사용자를 위한 GPT-5.4 Pro도 함께 나왔습니다.

한마디로 정리하면 GPT-5.2의 범용 추론 능력에 GPT-5.3-Codex의 코딩 특화 성능을 합친 모델입니다. 여기에 컴퓨터 조작(Computer Use)과 도구 검색(Tool Search) 같은 새 기능까지 더해졌습니다. OpenAI는 이를 "전문 업무를 위한 가장 유능하고 효율적인 프론티어 모델"이라고 설명합니다.

주요 특징

지식 업무 향상

GDPval 벤치마크는 44개 직종의 전문가 수준 업무를 AI가 얼마나 잘 수행하는지 측정합니다. GPT-5.4는 여기서 83.0%를 기록했습니다. GPT-5.2의 70.9%에서 큰 폭으로 올랐습니다.

스프레드시트, 프레젠테이션, 문서 작성 능력도 크게 개선되었습니다. 투자은행 주니어 분석가 수준의 스프레드시트 모델링 작업에서 87.3%를 기록했는데 GPT-5.2는 68.4%였습니다. 프레젠테이션 평가에서는 인간 평가자의 68.0%가 GPT-5.2보다 GPT-5.4의 결과물을 선호했습니다.

환각(Hallucination)도 줄었습니다. 사용자가 사실 오류를 신고한 프롬프트 기준으로 개별 주장이 거짓일 확률은 33% 감소했고 전체 응답에 오류가 포함될 확률은 18% 줄었습니다. OpenAI는 GPT-5.4를 "가장 사실에 충실한 모델"이라고 표현합니다.

컴퓨터 조작(Computer Use)

GPT-5.4는 OpenAI 범용 모델 중 최초로 컴퓨터를 직접 조작하는 기능을 내장했습니다. 스크린샷을 보고 마우스와 키보드 명령을 내리거나 Playwright 같은 라이브러리로 코드를 작성해 브라우저를 제어할 수 있습니다. 개발자 메시지를 통해 동작을 조정할 수 있고 위험 허용 수준에 맞춰 안전 정책도 커스터마이징할 수 있습니다.

데스크톱 환경 조작을 측정하는 OSWorld-Verified에서 75.0%를 기록했습니다. GPT-5.2의 47.3%는 물론 사람의 성공률 72.4%도 넘었습니다. 브라우저 조작 벤치마크인 WebArena-Verified에서도 67.3%로 GPT-5.2(65.4%)를 앞섰습니다.

시각 이해 능력도 함께 올라갔습니다. MMMU-Pro에서 81.2%(GPT-5.2는 79.5%), 문서 파싱 벤치마크 OmniDocBench에서는 평균 오류율이 0.140에서 0.109로 개선되었습니다. 고해상도 이미지 처리를 위해 'original' 이미지 입력 레벨도 새로 도입되어 최대 1024만 픽셀까지 원본 해상도를 유지할 수 있습니다.

도구 활용 개선과 Tool Search

GPT-5.4는 외부 도구를 다루는 방식이 크게 달라졌습니다. 기존에는 모든 도구 정의를 프롬프트에 미리 포함해야 했습니다. 도구가 많을수록 수천에서 수만 개의 토큰이 낭비됩니다.

새로 도입된 Tool Search는 가벼운 도구 목록만 먼저 전달하고 모델이 필요할 때 해당 도구의 정의를 찾아오는 방식입니다. Scale의 MCP Atlas 벤치마크에서 정확도는 동일하면서 전체 토큰 사용량이 47% 줄었습니다. MCP 서버처럼 도구 정의만 수만 토큰에 달하는 환경에서 효과가 큽니다.

실제 도구 호출 성능을 측정하는 Toolathlon에서도 54.6%로 GPT-5.2(45.7%)를 크게 앞섰습니다. 추론을 끈 상태에서 고객 서비스 작업을 테스트하는 Tau2-bench에서는 64.3%로 GPT-5.2(57.2%)와 GPT-4.1(43.6%)을 모두 넘겼습니다.

코딩

GPT-5.3-Codex의 코딩 능력이 그대로 통합되었습니다. SWE-Bench Pro에서 57.7%를 기록해 GPT-5.3-Codex(56.8%)와 GPT-5.2(55.6%)를 모두 넘겼고 추론 난이도 대비 응답 속도도 더 빨라졌습니다.

Codex에서는 /fast 모드로 전환하면 토큰 생성 속도가 최대 1.5배 빨라집니다. 같은 모델 같은 지능에서 속도만 올라가는 방식입니다. API에서는 Priority Processing으로 같은 효과를 얻을 수 있습니다.

실험적 기능으로 'Playwright (Interactive)' 스킬도 공개되었습니다. 웹 앱이나 Electron 앱을 시각적으로 디버깅할 수 있고 코딩 중인 앱을 만들면서 동시에 테스트하는 것도 가능합니다. OpenAI는 GPT-5.4가 특히 복잡한 프론트엔드 작업에서 이전 모델보다 눈에 띄게 나은 결과물을 보여준다고 밝혔습니다.

ChatGPT에서의 변화

GPT-5.4 Thinking은 복잡한 질문에 대해 작업 계획(Preamble)을 먼저 보여줍니다. 사용자는 모델이 작업하는 도중에 방향을 수정할 수 있어 여러 번 주고받지 않아도 원하는 결과에 더 빠르게 도달합니다.

웹 검색 성능도 개선되었습니다. 찾기 어려운 정보를 끈질기게 추적하는 능력을 측정하는 BrowseComp에서 82.7%를 기록해 GPT-5.2(65.8%)보다 17%p 높았습니다. GPT-5.4 Pro는 89.3%로 새로운 최고 기록을 세웠습니다.

기존 제품과 비교

벤치마크 비교

GPT-5.4 벤치마크
<GPT-5.4 벤치마크>

컴퓨터 조작과 지식 업무에서 가장 큰 폭의 성능 향상이 있었습니다. 코딩은 GPT-5.3-Codex 수준을 유지하면서 범용성을 더한 형태입니다.

API 가격 비교

모델 입력 캐시 입력 출력
GPT-5.2 $1.75/M $0.175/M $14/M
GPT-5.4 $2.50/M $0.25/M $15/M
GPT-5.2-PRO $21/M - $168/M
GPT-5.4-PRO $30/M - $180/M

토큰당 가격은 올랐지만 토큰 효율이 높아져 같은 작업에 소비되는 전체 토큰 수는 줄어들 수 있다는 것이 OpenAI의 설명입니다. Batch와 Flex 가격은 표준 요금의 절반이며 Priority Processing은 두 배입니다.

사용 가능 범위

  • ChatGPT Plus/Team/Pro: GPT-5.4 Thinking 바로 사용 가능. GPT-5.2 Thinking은 Legacy Models로 이동하며 2026년 6월 5일 종료 예정.
  • Enterprise/Edu: 관리자 설정에서 조기 접근 활성화 가능.
  • GPT-5.4 Pro: Pro와 Enterprise 요금제에서 사용 가능.
  • Codex: 실험적으로 1M 토큰 컨텍스트 윈도우 지원. 기본 272K를 초과하는 요청은 2배 요금 적용.

마무리

GPT-5.4는 기존에 별도 모델로 나뉘어 있던 코딩과 범용 추론을 하나로 합치면서 컴퓨터 조작과 도구 검색까지 추가한 모델입니다. 벤치마크 수치만 보면 거의 모든 영역에서 이전 모델을 앞서고 있습니다.

다만 API 가격이 소폭 올랐기 때문에 토큰 효율 개선분이 실제로 비용 절감으로 이어지는지는 사용 패턴에 따라 다릅니다. ChatGPT Plus 사용자라면 자동으로 GPT-5.4 Thinking이 적용되니 별도 조치 없이 바로 사용해볼 수 있습니다. API 개발자라면 Tool Search 기능과 1M 컨텍스트 윈도우가 기존 워크플로를 어떻게 바꿀 수 있을지 살펴볼 만합니다.

코덱스 앱에도 추가
<코덱스 앱에도 추가>

저 역시 1M 컨텍스트가 기대가 많이 되네요.

코덱스앱에도 5.4가 추가되었던데 사용해보러 가야겠습니다.

그리고 오픈AI가 모델 출시 주기를 한달로 단축한다는 소식도 있는데요.

앞으로는 매달 새로운 버전의 GPT를 만나볼 수 있겠네요.

반응형

'AI 소식' 카테고리의 다른 글

Codex 앱 드디어 윈도우 버전 출시  (1) 2026.03.05
Gemini 3.1 Pro 출시 내용 정리  (0) 2026.02.20
댓글
최근에 올라온 글
최근에 달린 댓글