분석·2026-05-28·8분

가성비 1위라더니 — Gemini 3.5 Flash의 실제 성능은?

Gemini 3.5 Flash는 향상된 성능을 고려하더라도, 실제로는 비싸졌다. 9달러 가격의 정체와, AXyBench 한국 실무 측정으로 본 Gemini 3.5 Flash의 진짜 포지션을 분석해봤다.

AXyNow
Gemini
구글
가성비
AXyBench

프리미엄 AI 매거진 AXyNow, 손상윤입니다.

'Flash' 모델이 나올 때마다 따라붙는 단어가 있습니다. "가성비." Gemini 3.5 Flash 역시 그럴 거라 생각했습니다. "플래그십 코앞 성능을 1/3 가격에." 그런데 가격을 보니 생각과 많이 달랐습니다. 그리고 글로벌 벤치 점수와 한국 실무 점수는 또 다른 얘기입니다. 그래서 직접 실험했습니다.

챗봇은 끝, 이제 에이전트

구글이 5월 19일 I/O 2026에서 Gemini 3.5 Flash를 공개했습니다. 메시지는 분명했습니다. 이제 "질문에 답하는 챗봇"이 아니라 "일을 대신 처리하는 에이전트"라는 겁니다.

근거로 내세운 건 속도와 자율성입니다. 다른 프런티어 모델 대비 출력 토큰 4배(최적화 버전은 최대 12배라고 주장) 빠르다고 했고, 여러 에이전트가 동시에 장시간 작업을 돌릴 때 이 속도가 핵심이라고 강조했죠.

Terminal-Bench 2.1 76.2, MCP Atlas 83.6 같은 에이전트·코딩 벤치에서 자사 상위 모델인 3.1 Pro마저 넘어섰다고 발표했고, 이미 은행·핀테크가 몇 주짜리 워크플로우를 Flash로 자동화하고 있다고 합니다. 3.5 Pro는 계획을 짜는 오케스트레이터, Flash는 그 밑에서 도구를 굴리는 일꾼이라는 분업 구도를 그리고 있는 것 같았습니다.

실제로 클로드도 보면, Opus나 Sonnet은 두뇌와 고밸류 출력을 담당하고 Haiku는 대량 탐색과 저밸류 출력을 담당하고 있죠. 여기까지만 보면 합리적으로 보입니다. 문제는 그 다음부터죠.

"가성비"의 함정: 싼 단가가 싼 청구서는 아니다

Flash는 reasoning 모델입니다. 답하기 전에 속으로 길게 사고하겠죠? 당연하게도 이 내부 사고(thinking) 토큰까지 출력 단가로 과금합니다. 그래서 input 단가도 중요하지만 output 단가가 더 중요하기도 합니다. 그런데 출력 1M당 2.5~3.5달러대였던 직전 세대 Gemini Flash(2.5 Flash, thinking 기준) 가격이 3.5에서는 1M당 9달러로 두 배 이상 비싸졌습니다.

개발자 커뮤니티에서 이걸 실측한 사례가 나왔습니다. Artificial Analysis의 표준 벤치 묶음을 한 바퀴 돌리는 데 Gemini 3.5 Flash가 약 1,551달러, 같은 작업에 3.1 Pro Preview는 892달러가 들었습니다. 단가가 더 싼 Flash가, 더 비싼 상위 모델보다 비용이 높았다는 거죠. 추론을 길게 끄는 작업, 즉 코딩·에이전트처럼 출력이 긴 업무일수록 이 역전이 심해집니다.

Artificial Analysis 표준 벤치 1회 총비용($) — 출처: artificialanalysis.ai, 2026-05. 출력 단가는 Flash가 더 싸지만, thinking 토큰을 쏟아내며 총 청구서는 상위 모델을 역전했다.

"단가 1/3"이라는 문구가 거짓은 아닙니다. 다만 그건 1토큰의 가격이고, 기업이 실제로 받는 건 한 작업의 총비용 청구서예요. 둘 사이의 간극이 바로 이 모델의 첫 번째 함정입니다.

실제로 Gemini Flash 계열은 3.0 때도 같은 지적을 받았었습니다. 3.0 Pro와 비교했을때 그렇게까지 큰 매리트를 못느끼겠다는 것이죠. 이유인 즉슨, 실제 어떤 목표를 수행하기 위해 필요한 출력 토큰량이 너무 많다는 겁니다.

그래서 왜 하필 9달러인가

가격 자체도 짚을 만합니다. Gemini 계열 안에서 Flash의 자리를 보면 묘해요.

모델	입력 $/1M	출력 $/1M
Gemini 3.1 Flash-Lite	0.25	1.50
Gemini 3.5 Flash	1.50	9.00
Gemini 3.1 Pro	2.00	12.00
Claude Sonnet 4.6	3.00	15.00
GPT-5.5	5.00	30.00

출처: 각 vendor 공식가 직결, 조회 2026-05-28.

3.1 Pro와 비교하면 입력·출력 모두 25% 싼, 분명한 하위 가격입니다. 그런데 직전 경량 모델인 Flash-Lite(0.25/1.5)와 비교하면 입력·출력 모두 정확히 6배로 뛰었어요. "Flash"라는 이름은 그대로인데 가격대는 한 체급 위로 올라온 셈입니다.

성능 자체는 시장에서 출력 7~11달러 구간이면 납득되는 수준은 맞습니다. 거기에 압도적인 토큰 속도와 'Flash = 가성비'라는 브랜드 이미지를 얹어, 굳이 9달러라는 포지션을 잡은 겁니다. Simon Willison의 표현을 빌리면, 지금 3대 랩이 동시에 "API 고객이 어디까지 견디나"를 떠보는 중입니다. Flash의 9달러는 그 탐색의 한 수예요.

실제로 SOTA 레벨의 모델들은 대부분 15달러가 넘고, 그 바로 준 SOTA 급들은 4~7.5 달러 사이에 포지셔닝하고 있습니다. Gemini 3.5 Flash는 정확하게 아무도 없는 공간에 바둑돌을 스윽 올려둔 셈이죠.

AXyBench로 직접 재보면 — Flash의 진짜 자리

발표에 나온 벤치는 전부 영어·코딩·에이전트입니다. 한국 비즈니스 실무에서는 몇 점일까요. AXyNow가 직접 측정하는 AXyBench로 재봤습니다.

읽는 법. AXyBench 점수는 모델의 "절대 지능"이 아니라 한국 비즈니스 실무 + 고난도 변별 순위입니다. 일부러 어려운 함정을 깔아 변별을 만들고, 한국 도메인(세무·법무 등)을 무겁게 가중합니다. 그래서 글로벌 코딩·에이전트 벤치의 명성과 이 점수는 다른 것을 잽니다.

평균은 graded 6개 카테고리(세무·노무·법무·마케팅·코드·문서)의 평균입니다. 어제(5/27) DeepSeek V4 글에서는 graded가 3개(세무·코드·문서)뿐이었기 때문에 같은 모델이라도 평균값이 다르게 보입니다 — 어제 글의 DeepSeek V4 Flash 75.2점이 오늘 78.0점이 된 건 측정 풀이 5/28에 노무·법무·마케팅까지 graded로 편입되면서 넓어진 결과지, 점수가 흔들린 게 아닙니다.

모델	세무	노무	법무	마케팅	코드	문서	평균
Claude Opus 4.7	86.8	87.6	88.6	86.6	95.2	94.0	89.8
Gemini 3.1 Pro	92.6	85.6	85.4	85.2	87.2	90.8	87.8
Gemini 3.5 Flash	85.2	85.6	85.0	83.8	84.4	80.8	84.1
DeepSeek V4 Flash	70.4	80.8	80.2	81.2	83.8	71.4	78.0

먼저 확인된 사실 하나. 평균 84.1점, 톱 플래그십(Opus 89.8·GPT-5.5 88.8·자사 3.1 Pro 87.8)에는 한 티어 못 미칩니다. "플래그십 2점 차"라는 글로벌 마케팅 문구와, 한국 세무·문서 실무에서의 현실은 다릅니다.

하지만 같은 'Flash' 체급에 놓고 보면 그림이 달라져요. SOTA 4개(Opus 89.8 / GPT-5.5 88.8 / Gemini 3.1 Pro 87.8 / Sonnet 4.6 87.4) 한 티어 아래에 mini/Flash/경량 풀이 모여 있는데 — mimo-v2-5-pro 80.5, gemma-4-26b-a4b 80.0, GPT-5.4 mini 80.0, Gemini 3.1 Flash-Lite 79.1, DeepSeek V4 Flash 78.0 — Flash가 84.1로 그중 1위는 맞습니다. 다만 격차는 좁아요. 다음 자리 mimo와는 3.6점, 같은 OpenAI 미니인 GPT-5.4 mini와는 4.1점입니다.

여기에 가격을 얹으면 그림이 더 어색해집니다. GPT-5.4 mini는 출력 1M당 4.5달러 — Flash($9)의 정확히 절반 가격에 4점만 낮은 점수예요. '9달러 Flash'는 이런 미니 풀을 위에서 내려다보기 위해 잡은 가격대인데, 실측 격차는 마케팅이 그리는 만큼 압도적이지 않습니다. 분류·요약·1차 초안·대량 추출처럼 비용에 민감한 반복 업무라면, Flash 대신 한 칸 아래 미니로 내려가는 선택이 합리적일 수 있는 거죠.

Flash의 단점: '문서'에서 무너진다

표를 한 번 더 보면, Flash만의 독특한 윤곽이 잡힙니다. 노무 85.6, 세무 85.2, 법무 85.0 — 지식 업무는 어느 하나 빠지지 않고 단단합니다. 그런데 딱 한 칸이 푹 꺼져요. 문서 출력 80.8. 측정 카테고리 중 가장 낮고, 같은 패밀리인 3.1 Pro(90.8)보다 무려 10점 아래입니다.

AXyBench 항목별 점수 — Gemini 3.5 Flash(시안) vs 같은 패밀리 3.1 Pro(우드). 대부분 붙어 있다가 '문서'에서만 10점 협곡이 벌어진다.

문서 출력은 슬라이드·차트·표처럼 구조화된 산출물을 뽑는 능력이에요. 그리고 이건 기업이 자동화로 가장 먼저 떠넘기고 싶어 하는 바로 그 업무이기도 합니다. "에이전트로 몇 주짜리 업무를 자동화한다"고 외치는 모델이, 정작 한국어 구조화 문서 산출에서 가장 약하다는 것이죠. 마케팅 서사와 실측이 정면으로 어긋나는 지점이죠.

AXyBench에서는 이렇게 잡히긴 했습니다. 영어 에이전트 벤치만 보면 절대 안 보이는, 한국 실무에서의 진짜 약점이요.

결론: 중소기업의 '가성비 일꾼'으로는 충분히 AXy

정리하면 이렇습니다. Gemini 3.5 Flash는 톱 플래그십을 대체할 모델이 아닙니다. 평균도 한 티어 아래고, 단가가 싸다고 청구서가 싼 것도 아니에요. 긴 추론을 끄는 작업일수록 총비용은 오히려 뒤통수를 칩니다.

그럼에도 쓸 자리는 분명합니다. 지식 응답과 1차 초안, 비용 민감 반복 업무라면 Flash 체급은 충분히 좋습니다. 다만 멀티모달 강화가 예고되고 있는 DeepSeek V4.1 Flash(공식 일정 미공개)가 실제로 출시된다면, Flash 계열에서의 가성비 왕좌는 내줘야 할 가능성이 큽니다.

출력이 긴 작업은 총비용을 먼저 계산하고, 최종 문서·표 산출은 Pro급에 맡기는 것. 이 선만 지키면, 중소기업의 가성비 일꾼으로는 충분히 AXy합니다.

자세한 벤치마크 결과는 → AXyBench 전체 결과 보기

공유X Threads