AXyBench · 한국 AI 비즈니스 실무 벤치마크
KOREA · BUSINESS · LLM
종합 점수
대한민국 비즈니스 AX Benchmark
한국 비즈니스 실무(세무·법무·마케팅·인사·코드·문서·도면 등 총 13개의 과제)에 누가 가장 쓸만한지 측정합니다.
By Domain
영역별 종합
개인 의사결정 · 사업 운영 · 기술 출력
영역 평균
영역 평균
영역 평균
By Model
모델별 종합 점수
카드 클릭 → 모델별 13 카테고리 상세 점수
Claude Opus 4.8
Anthropic90.6/100
GPT-5.5
OpenAI89.9/100
Gemini 3.1 Pro
Google87.7/100
Claude Sonnet 4.6
Anthropic86.5/100
Gemini 3.5 Flash
Google85.6/100
GPT-5.4 Mini
OpenAI80.0/100
Gemma 4 12B
Google79.7/100
Qwen 3.7 Max
Alibaba79.6/100
DeepSeek V4 Pro
DeepSeek79.6/100
MiniMax M3
Minimax78.9/100
Gemma 4 31B
Google78.8/100
Gemma 4 26B A4B
Google78.5/100
Gemini 3.1 Flash Lite
Google77.9/100
Qwen 3.7 Plus
Alibaba75.6/100
Mimo V2.5 Pro
Xiaomi74.9/100
Grok 4.3
xAI74.5/100
DeepSeek V4 Flash
DeepSeek73.4/100
GLM 5.1
Z.ai72.3/100
Nemotron 3 Ultra 550B
NVIDIA72.2/100
Step 3.7 Flash
StepFun71.8/100
Kimi K2.6
Moonshot71.3/100
Qwen 3.6 27B
Alibaba67.8/100
EXAONE 4.5 33B
LG AI61.7/100
Solar Pro 3
Upstage61.4/100
Qwen 3.6 35B A3B
Alibaba58.7/100
HyperCLOVAX SEED Think 32B
Naver58.6/100
Qwen 3.5 9B
Alibaba58.5/100
Mistral Small 4
Mistral50.5/100
Kanana 2 30B-A3B Thinking
Kakao46.2/100
Gemma 4 E2B
Google44.9/100
HyperCLOVAX SEED 1.5B
Naver32.2/100
LFM2.5 8B-A1B
Liquid AI31.0/100
By Value
어디서 갈리는가 — 가성비
종합 점수는 가운데로 뭉쳐도, 같은 답을 받는 비용은 100배 넘게 벌어진다
점선 = 가성비 프런티어 — 같은 비용에 더 좋은 선택지가 없는 모델들을 이은 선으로, 이 선 위(좌상단 방향)일수록 가성비 우위. 점 위에 올리면 점수·비용·속도. 비용·속도는 정보 표시값이지 채점 축이 아닙니다 — 속도 = 초당 출력 토큰(완성 토큰 ÷ 벽시계, 추론 토큰 포함). 측정 시점 서버·라우팅 노이즈가 있어 방향성만 참고.
| 모델 | 한국 직무 점수 | 쿼리당 비용 | 초당 출력 토큰 |
|---|---|---|---|
| Claude Opus 4.8 | 90.6점 | $0.076/쿼리 | 68 tok/s |
| GPT-5.5 | 89.9점 | $0.163/쿼리 | 53 tok/s |
| Gemini 3.1 Pro | 87.7점 | $0.018/쿼리 | 41 tok/s |
| Claude Sonnet 4.6 | 86.5점 | $0.110/쿼리 | 64 tok/s |
| Gemini 3.5 Flash | 85.6점 | $0.016/쿼리 | 98 tok/s |
| GPT-5.4 Mini | 80.0점 | $0.030/쿼리 | 138 tok/s |
| DeepSeek V4 Pro | 79.6점 | $0.0050/쿼리 | 40 tok/s |
| Qwen 3.7 Max | 79.6점 | $0.035/쿼리 | 61 tok/s |
| MiniMax M3 | 78.9점 | $0.0026/쿼리 | 26 tok/s |
| Gemma 4 31B | 78.8점 | $0.0009/쿼리 | 14 tok/s |
| Gemma 4 26B A4B | 78.5점 | $0.0009/쿼리 | 81 tok/s |
| Gemini 3.1 Flash Lite | 77.9점 | $0.0017/쿼리 | 114 tok/s |
| Qwen 3.7 Plus | 75.6점 | $0.0062/쿼리 | 53 tok/s |
| Mimo V2.5 Pro | 74.9점 | $0.0085/쿼리 | 44 tok/s |
| Grok 4.3 | 74.5점 | $0.0059/쿼리 | 109 tok/s |
| DeepSeek V4 Flash | 73.4점 | $0.0010/쿼리 | 77 tok/s |
| GLM 5.1 | 72.3점 | $0.021/쿼리 | 42 tok/s |
| Nemotron 3 Ultra 550B | 72.2점 | $0.0098/쿼리 | 16 tok/s |
| Step 3.7 Flash | 71.8점 | $0.0028/쿼리 | 120 tok/s |
| Kimi K2.6 | 71.3점 | $0.030/쿼리 | 40 tok/s |
| Qwen 3.6 27B | 67.8점 | $0 | 74 tok/s |
| EXAONE 4.5 33B | 61.7점 | $0 | 49 tok/s |
| Solar Pro 3 | 61.4점 | $0.0022/쿼리 | 79 tok/s |
| Qwen 3.6 35B A3B | 58.7점 | $0.0052/쿼리 | 86 tok/s |
| HyperCLOVAX SEED Think 32B | 58.6점 | $0 | 24 tok/s |
| Mistral Small 4 | 50.5점 | $0.0030/쿼리 | 130 tok/s |
| Kanana 2 30B-A3B Thinking | 46.2점 | $0 | 44 tok/s |
| Gemma 4 E2B | 44.9점 | $0 | 24 tok/s |
| HyperCLOVAX SEED 1.5B | 32.2점 | $0 | 22 tok/s |
| LFM2.5 8B-A1B | 31.0점 | $0 | 59 tok/s |
By Category
카테고리별 모델 순위
카드 클릭 → 카테고리별 전체 모델 상세 점수
개인 의사결정5 카테고리
사업 운영4 카테고리
기술 출력4 카테고리