AXyBench · 한국 AI 비즈니스 실무 벤치마크

KOREA · BUSINESS · LLM

종합 점수

전체 평균90.6Claude Opus 4.8· Anthropic

90.6
Claude Opus 4.8
89.9
GPT-5.5
87.7
Gemini 3.1 Pro
86.5
Claude Sonnet 4.6
85.6
Gemini 3.5 Flash
80.0
GPT-5.4 Mini
79.7
Gemma 4 12B
79.6
Qwen 3.7 Max
79.6
DeepSeek V4 Pro
78.9
MiniMax M3
78.8
Gemma 4 31B
78.5
Gemma 4 26B A4B
77.9
Gemini 3.1 Flash Lite
75.6
Qwen 3.7 Plus
74.9
Mimo V2.5 Pro
74.5
Grok 4.3
73.4
DeepSeek V4 Flash
72.3
GLM 5.1
72.2
Nemotron 3 Ultra 550B
71.8
Step 3.7 Flash
71.3
Kimi K2.6
67.8
Qwen 3.6 27B
61.7
EXAONE 4.5 33B
61.4
Solar Pro 3
58.7
Qwen 3.6 35B A3B
58.6
HyperCLOVAX SEED Think 32B
58.5
Qwen 3.5 9B
50.5
Mistral Small 4
46.2
Kanana 2 30B-A3B Thinking
44.9
Gemma 4 E2B
32.2
HyperCLOVAX SEED 1.5B
31.0
LFM2.5 8B-A1B

한국 직무·도메인 · 100점 · 문항당 1회32 / 32 측정

대한민국 비즈니스 AX Benchmark

한국 비즈니스 실무(세무·법무·마케팅·인사·코드·문서·도면 등 총 13개의 과제)에 누가 가장 쓸만한지 측정합니다.

대상 32 모델 · 13 과제·현재 공개 12/13 카테고리·5개 항목 × 100점·측정 방식 →

By Domain

영역별 종합

개인 의사결정 · 사업 운영 · 기술 출력

영역 평균

개인 의사결정91.1GPT-5.5· OpenAI

91.1
GPT-5.5
89.4
Claude Opus 4.8
87.7
Gemini 3.1 Pro
87.3
Gemini 3.5 Flash
85.5
Claude Sonnet 4.6
80.5
DeepSeek V4 Pro
80.0
GPT-5.4 Mini
79.5
Qwen 3.7 Max
79.1
Gemma 4 31B
78.5
Gemma 4 12B
76.6
Gemma 4 26B A4B
76.5
Gemini 3.1 Flash Lite
73.6
Qwen 3.7 Plus
73.2
MiniMax M3
71.2
Grok 4.3
68.4
Nemotron 3 Ultra 550B
68.2
Mimo V2.5 Pro
68.0
DeepSeek V4 Flash
67.4
GLM 5.1
67.0
Kimi K2.6
66.8
Step 3.7 Flash
64.8
Qwen 3.6 27B
59.7
Solar Pro 3
56.8
EXAONE 4.5 33B
53.8
HyperCLOVAX SEED Think 32B
52.6
Qwen 3.5 9B
46.2
Qwen 3.6 35B A3B
43.0
Kanana 2 30B-A3B Thinking
40.6
Gemma 4 E2B
39.8
Mistral Small 4
32.2
HyperCLOVAX SEED 1.5B
27.9
LFM2.5 8B-A1B

한국 직무·도메인 · 100점 · 문항당 1회32 / 32 측정

영역 평균

사업 운영89.5Claude Opus 4.8· Anthropic

89.5
Claude Opus 4.8
89.4
GPT-5.5
87.4
Claude Sonnet 4.6
87.2
Gemini 3.1 Pro
84.9
Gemini 3.5 Flash
81.4
Gemma 4 12B
81.2
Gemma 4 26B A4B
81.1
GPT-5.4 Mini
80.5
MiniMax M3
80.2
Qwen 3.7 Max
79.9
Mimo V2.5 Pro
79.8
DeepSeek V4 Pro
79.8
Gemma 4 31B
79.3
Gemini 3.1 Flash Lite
78.2
DeepSeek V4 Flash
77.9
Grok 4.3
74.8
Qwen 3.7 Plus
74.3
GLM 5.1
74.3
Step 3.7 Flash
73.2
Kimi K2.6
71.9
Nemotron 3 Ultra 550B
66.3
Qwen 3.6 27B
65.5
Qwen 3.6 35B A3B
65.2
EXAONE 4.5 33B
64.7
HyperCLOVAX SEED Think 32B
59.7
Qwen 3.5 9B
59.3
Solar Pro 3
51.3
Mistral Small 4
48.0
Gemma 4 E2B
46.5
Kanana 2 30B-A3B Thinking
31.0
HyperCLOVAX SEED 1.5B
30.5
LFM2.5 8B-A1B

한국 직무·도메인 · 100점 · 문항당 1회32 / 32 측정

영역 평균

기술 출력96.0Claude Opus 4.8· Anthropic

96.0
Claude Opus 4.8
90.0
MiniMax M3
89.0
Gemini 3.1 Pro
87.6
GPT-5.5
87.5
Claude Sonnet 4.6
82.6
Gemini 3.5 Flash
82.3
Nemotron 3 Ultra 550B
82.2
Qwen 3.7 Plus
81.7
Mimo V2.5 Pro
80.7
GLM 5.1
79.5
Gemma 4 12B
79.2
Step 3.7 Flash
78.9
Qwen 3.7 Max
78.6
Gemini 3.1 Flash Lite
78.2
Qwen 3.6 27B
78.1
Kimi K2.6
77.7
GPT-5.4 Mini
77.7
Gemma 4 26B A4B
77.6
DeepSeek V4 Flash
76.9
DeepSeek V4 Pro
76.4
Qwen 3.6 35B A3B
76.4
Gemma 4 31B
76.0
Grok 4.3
75.8
Mistral Small 4
70.8
Qwen 3.5 9B
69.9
Solar Pro 3
67.0
EXAONE 4.5 33B
58.5
HyperCLOVAX SEED Think 32B
53.5
Kanana 2 30B-A3B Thinking
49.4
Gemma 4 E2B
39.4
LFM2.5 8B-A1B
34.8
HyperCLOVAX SEED 1.5B

한국 직무·도메인 · 100점 · 문항당 1회32 / 32 측정

By Model

모델별 종합 점수

카드 클릭 → 모델별 13 카테고리 상세 점수

By Value

어디서 갈리는가 — 가성비

종합 점수는 가운데로 뭉쳐도, 같은 답을 받는 비용은 100배 넘게 벌어진다

관점

점선 = 가성비 프런티어 — 같은 비용에 더 좋은 선택지가 없는 모델들을 이은 선으로, 이 선 위(좌상단 방향)일수록 가성비 우위. 점 위에 올리면 점수·비용·속도. 비용·속도는 정보 표시값이지 채점 축이 아닙니다 — 속도 = 초당 출력 토큰(완성 토큰 ÷ 벽시계, 추론 토큰 포함). 측정 시점 서버·라우팅 노이즈가 있어 방향성만 참고.

가격대비 성능 — 모델별 한국 직무 점수 · 쿼리당 비용 · 초당 출력 토큰
모델	한국 직무 점수	쿼리당 비용	초당 출력 토큰
Claude Opus 4.8	90.6점	$0.076/쿼리	68 tok/s
GPT-5.5	89.9점	$0.163/쿼리	53 tok/s
Gemini 3.1 Pro	87.7점	$0.018/쿼리	41 tok/s
Claude Sonnet 4.6	86.5점	$0.110/쿼리	64 tok/s
Gemini 3.5 Flash	85.6점	$0.016/쿼리	98 tok/s
GPT-5.4 Mini	80.0점	$0.030/쿼리	138 tok/s
DeepSeek V4 Pro	79.6점	$0.0050/쿼리	40 tok/s
Qwen 3.7 Max	79.6점	$0.035/쿼리	61 tok/s
MiniMax M3	78.9점	$0.0026/쿼리	26 tok/s
Gemma 4 31B	78.8점	$0.0009/쿼리	14 tok/s
Gemma 4 26B A4B	78.5점	$0.0009/쿼리	81 tok/s
Gemini 3.1 Flash Lite	77.9점	$0.0017/쿼리	114 tok/s
Qwen 3.7 Plus	75.6점	$0.0062/쿼리	53 tok/s
Mimo V2.5 Pro	74.9점	$0.0085/쿼리	44 tok/s
Grok 4.3	74.5점	$0.0059/쿼리	109 tok/s
DeepSeek V4 Flash	73.4점	$0.0010/쿼리	77 tok/s
GLM 5.1	72.3점	$0.021/쿼리	42 tok/s
Nemotron 3 Ultra 550B	72.2점	$0.0098/쿼리	16 tok/s
Step 3.7 Flash	71.8점	$0.0028/쿼리	120 tok/s
Kimi K2.6	71.3점	$0.030/쿼리	40 tok/s
Qwen 3.6 27B	67.8점	$0	74 tok/s
EXAONE 4.5 33B	61.7점	$0	49 tok/s
Solar Pro 3	61.4점	$0.0022/쿼리	79 tok/s
Qwen 3.6 35B A3B	58.7점	$0.0052/쿼리	86 tok/s
HyperCLOVAX SEED Think 32B	58.6점	$0	24 tok/s
Mistral Small 4	50.5점	$0.0030/쿼리	130 tok/s
Kanana 2 30B-A3B Thinking	46.2점	$0	44 tok/s
Gemma 4 E2B	44.9점	$0	24 tok/s
HyperCLOVAX SEED 1.5B	32.2점	$0	22 tok/s
LFM2.5 8B-A1B	31.0점	$0	59 tok/s