본문으로 건너뛰기
AXyNowAX IS NOW

AXyBench · 한국 AI 비즈니스 실무 벤치마크

KOREA · BUSINESS · LLM

종합 점수
전체 평균90.6Claude Opus 4.8· Anthropic
  1. 90.6
    Claude Opus 4.8
  2. 89.9
    GPT-5.5
  3. 87.7
    Gemini 3.1 Pro
  4. 86.5
    Claude Sonnet 4.6
  5. 85.6
    Gemini 3.5 Flash
  6. 80.0
    GPT-5.4 Mini
  7. 79.7
    Gemma 4 12B
  8. 79.6
    Qwen 3.7 Max
  9. 79.6
    DeepSeek V4 Pro
  10. 78.9
    MiniMax M3
  11. 78.8
    Gemma 4 31B
  12. 78.5
    Gemma 4 26B A4B
  13. 77.9
    Gemini 3.1 Flash Lite
  14. 75.6
    Qwen 3.7 Plus
  15. 74.9
    Mimo V2.5 Pro
  16. 74.5
    Grok 4.3
  17. 73.4
    DeepSeek V4 Flash
  18. 72.3
    GLM 5.1
  19. 72.2
    Nemotron 3 Ultra 550B
  20. 71.8
    Step 3.7 Flash
  21. 71.3
    Kimi K2.6
  22. 67.8
    Qwen 3.6 27B
  23. 61.7
    EXAONE 4.5 33B
  24. 61.4
    Solar Pro 3
  25. 58.7
    Qwen 3.6 35B A3B
  26. 58.6
    HyperCLOVAX SEED Think 32B
  27. 58.5
    Qwen 3.5 9B
  28. 50.5
    Mistral Small 4
  29. 46.2
    Kanana 2 30B-A3B Thinking
  30. 44.9
    Gemma 4 E2B
  31. 32.2
    HyperCLOVAX SEED 1.5B
  32. 31.0
    LFM2.5 8B-A1B
한국 직무·도메인 · 100점 · 문항당 1회32 / 32 측정

대한민국 비즈니스 AX Benchmark

한국 비즈니스 실무(세무·법무·마케팅·인사·코드·문서·도면 등 총 13개의 과제)에 누가 가장 쓸만한지 측정합니다.

대상 32 모델 · 13 과제·현재 공개 12/13 카테고리·5개 항목 × 100점·측정 방식 →
By Domain

영역별 종합

개인 의사결정 · 사업 운영 · 기술 출력

영역 평균
개인 의사결정91.1GPT-5.5· OpenAI
  1. 91.1
    GPT-5.5
  2. 89.4
    Claude Opus 4.8
  3. 87.7
    Gemini 3.1 Pro
  4. 87.3
    Gemini 3.5 Flash
  5. 85.5
    Claude Sonnet 4.6
  6. 80.5
    DeepSeek V4 Pro
  7. 80.0
    GPT-5.4 Mini
  8. 79.5
    Qwen 3.7 Max
  9. 79.1
    Gemma 4 31B
  10. 78.5
    Gemma 4 12B
  11. 76.6
    Gemma 4 26B A4B
  12. 76.5
    Gemini 3.1 Flash Lite
  13. 73.6
    Qwen 3.7 Plus
  14. 73.2
    MiniMax M3
  15. 71.2
    Grok 4.3
  16. 68.4
    Nemotron 3 Ultra 550B
  17. 68.2
    Mimo V2.5 Pro
  18. 68.0
    DeepSeek V4 Flash
  19. 67.4
    GLM 5.1
  20. 67.0
    Kimi K2.6
  21. 66.8
    Step 3.7 Flash
  22. 64.8
    Qwen 3.6 27B
  23. 59.7
    Solar Pro 3
  24. 56.8
    EXAONE 4.5 33B
  25. 53.8
    HyperCLOVAX SEED Think 32B
  26. 52.6
    Qwen 3.5 9B
  27. 46.2
    Qwen 3.6 35B A3B
  28. 43.0
    Kanana 2 30B-A3B Thinking
  29. 40.6
    Gemma 4 E2B
  30. 39.8
    Mistral Small 4
  31. 32.2
    HyperCLOVAX SEED 1.5B
  32. 27.9
    LFM2.5 8B-A1B
한국 직무·도메인 · 100점 · 문항당 1회32 / 32 측정
영역 평균
사업 운영89.5Claude Opus 4.8· Anthropic
  1. 89.5
    Claude Opus 4.8
  2. 89.4
    GPT-5.5
  3. 87.4
    Claude Sonnet 4.6
  4. 87.2
    Gemini 3.1 Pro
  5. 84.9
    Gemini 3.5 Flash
  6. 81.4
    Gemma 4 12B
  7. 81.2
    Gemma 4 26B A4B
  8. 81.1
    GPT-5.4 Mini
  9. 80.5
    MiniMax M3
  10. 80.2
    Qwen 3.7 Max
  11. 79.9
    Mimo V2.5 Pro
  12. 79.8
    DeepSeek V4 Pro
  13. 79.8
    Gemma 4 31B
  14. 79.3
    Gemini 3.1 Flash Lite
  15. 78.2
    DeepSeek V4 Flash
  16. 77.9
    Grok 4.3
  17. 74.8
    Qwen 3.7 Plus
  18. 74.3
    GLM 5.1
  19. 74.3
    Step 3.7 Flash
  20. 73.2
    Kimi K2.6
  21. 71.9
    Nemotron 3 Ultra 550B
  22. 66.3
    Qwen 3.6 27B
  23. 65.5
    Qwen 3.6 35B A3B
  24. 65.2
    EXAONE 4.5 33B
  25. 64.7
    HyperCLOVAX SEED Think 32B
  26. 59.7
    Qwen 3.5 9B
  27. 59.3
    Solar Pro 3
  28. 51.3
    Mistral Small 4
  29. 48.0
    Gemma 4 E2B
  30. 46.5
    Kanana 2 30B-A3B Thinking
  31. 31.0
    HyperCLOVAX SEED 1.5B
  32. 30.5
    LFM2.5 8B-A1B
한국 직무·도메인 · 100점 · 문항당 1회32 / 32 측정
영역 평균
기술 출력96.0Claude Opus 4.8· Anthropic
  1. 96.0
    Claude Opus 4.8
  2. 90.0
    MiniMax M3
  3. 89.0
    Gemini 3.1 Pro
  4. 87.6
    GPT-5.5
  5. 87.5
    Claude Sonnet 4.6
  6. 82.6
    Gemini 3.5 Flash
  7. 82.3
    Nemotron 3 Ultra 550B
  8. 82.2
    Qwen 3.7 Plus
  9. 81.7
    Mimo V2.5 Pro
  10. 80.7
    GLM 5.1
  11. 79.5
    Gemma 4 12B
  12. 79.2
    Step 3.7 Flash
  13. 78.9
    Qwen 3.7 Max
  14. 78.6
    Gemini 3.1 Flash Lite
  15. 78.2
    Qwen 3.6 27B
  16. 78.1
    Kimi K2.6
  17. 77.7
    GPT-5.4 Mini
  18. 77.7
    Gemma 4 26B A4B
  19. 77.6
    DeepSeek V4 Flash
  20. 76.9
    DeepSeek V4 Pro
  21. 76.4
    Qwen 3.6 35B A3B
  22. 76.4
    Gemma 4 31B
  23. 76.0
    Grok 4.3
  24. 75.8
    Mistral Small 4
  25. 70.8
    Qwen 3.5 9B
  26. 69.9
    Solar Pro 3
  27. 67.0
    EXAONE 4.5 33B
  28. 58.5
    HyperCLOVAX SEED Think 32B
  29. 53.5
    Kanana 2 30B-A3B Thinking
  30. 49.4
    Gemma 4 E2B
  31. 39.4
    LFM2.5 8B-A1B
  32. 34.8
    HyperCLOVAX SEED 1.5B
한국 직무·도메인 · 100점 · 문항당 1회32 / 32 측정
By Model

모델별 종합 점수

카드 클릭 → 모델별 13 카테고리 상세 점수

By Value

어디서 갈리는가 — 가성비

종합 점수는 가운데로 뭉쳐도, 같은 답을 받는 비용은 100배 넘게 벌어진다

24283236404448525660646872768084889296$0.001$0.003$0.01$0.03$0.10쿼리당 비용 (USD, 로그)한국 직무 점수가성비 프런티어Gemini 3.1 Flash Lite · 77.9점 · $0.0017/쿼리 · 114 tok/s (응답 10초)Gemini 3.5 Flash · 85.6점 · $0.016/쿼리 · 98 tok/s (응답 17초)Gemini 3.1 Pro · 87.7점 · $0.018/쿼리 · 41 tok/s (응답 35초)Claude Sonnet 4.6 · 86.5점 · $0.110/쿼리 · 64 tok/s (응답 115초)Claude Opus 4.8 · 90.6점 · $0.076/쿼리 · 68 tok/s (응답 42초)GPT-5.4 Mini · 80점 · $0.030/쿼리 · 138 tok/s (응답 48초)GPT-5.5 · 89.9점 · $0.163/쿼리 · 53 tok/s (응답 100초)DeepSeek V4 Flash · 73.4점 · $0.0010/쿼리 · 77 tok/s (응답 47초)DeepSeek V4 Pro · 79.6점 · $0.0050/쿼리 · 40 tok/s (응답 140초)Kimi K2.6 · 71.3점 · $0.030/쿼리 · 40 tok/s (응답 184초)GLM 5.1 · 72.3점 · $0.021/쿼리 · 42 tok/s (응답 114초)Mimo V2.5 Pro · 74.9점 · $0.0085/쿼리 · 44 tok/s (응답 219초)Grok 4.3 · 74.5점 · $0.0059/쿼리 · 109 tok/s (응답 19초)MiniMax M3 · 78.9점 · $0.0026/쿼리 · 26 tok/s (응답 45초)Step 3.7 Flash · 71.8점 · $0.0028/쿼리 · 120 tok/s (응답 18초)Nemotron 3 Ultra 550B · 72.2점 · $0.0098/쿼리 · 16 tok/s (응답 241초)NQwen 3.6 35B A3B · 58.7점 · $0.0052/쿼리 · 86 tok/s (응답 61초)Qwen 3.7 Max · 79.6점 · $0.035/쿼리 · 61 tok/s (응답 76초)Qwen 3.7 Plus · 75.6점 · $0.0062/쿼리 · 53 tok/s (응답 71초)Qwen 3.6 27B · 67.8점 · $0 · 74 tok/s (응답 71초)Gemma 4 26B A4B · 78.5점 · $0.0009/쿼리 · 81 tok/s (응답 32초)Gemma 4 31B · 78.8점 · $0.0009/쿼리 · 14 tok/s (응답 169초)Mistral Small 4 · 50.5점 · $0.0030/쿼리 · 130 tok/s (응답 38초)EXAONE 4.5 33B · 61.7점 · $0 · 49 tok/s (응답 150초)Kanana 2 30B-A3B Thinking · 46.2점 · $0 · 44 tok/s (응답 97초)HyperCLOVAX SEED Think 32B · 58.6점 · $0 · 24 tok/s (응답 66초)Solar Pro 3 · 61.4점 · $0.0022/쿼리 · 79 tok/s (응답 44초)LFM2.5 8B-A1B · 31점 · $0 · 59 tok/s (응답 60초)HyperCLOVAX SEED 1.5B · 32.2점 · $0 · 22 tok/s (응답 30초)Gemma 4 E2B · 44.9점 · $0 · 24 tok/s (응답 85초)Gemini 3.1 Flash LiteGemini 3.5 FlashGemini 3.1 ProClaude Sonnet 4.6Claude Opus 4.8GPT-5.4 MiniGPT-5.5DeepSeek V4 FlashDeepSeek V4 ProKimi K2.6GLM 5.1Mimo V2.5 ProGrok 4.3MiniMax M3Step 3.7 FlashNNemotron 3 Ultra 550BQwen 3.6 35B A3BQwen 3.7 MaxQwen 3.7 PlusQwen 3.6 27BGemma 4 26B A4BGemma 4 31BMistral Small 4EXAONE 4.5 33BKanana 2 30B-A3B ThinkingHyperCLOVAX SEED Think 32BSolar Pro 3LFM2.5 8B-A1BHyperCLOVAX SEED 1.5BGemma 4 E2B

점선 = 가성비 프런티어 — 같은 비용에 더 좋은 선택지가 없는 모델들을 이은 선으로, 이 선 위(좌상단 방향)일수록 가성비 우위. 점 위에 올리면 점수·비용·속도. 비용·속도는 정보 표시값이지 채점 축이 아닙니다 — 속도 = 초당 출력 토큰(완성 토큰 ÷ 벽시계, 추론 토큰 포함). 측정 시점 서버·라우팅 노이즈가 있어 방향성만 참고.

가격대비 성능 — 모델별 한국 직무 점수 · 쿼리당 비용 · 초당 출력 토큰
모델한국 직무 점수쿼리당 비용초당 출력 토큰
Claude Opus 4.890.6점$0.076/쿼리68 tok/s
GPT-5.589.9점$0.163/쿼리53 tok/s
Gemini 3.1 Pro87.7점$0.018/쿼리41 tok/s
Claude Sonnet 4.686.5점$0.110/쿼리64 tok/s
Gemini 3.5 Flash85.6점$0.016/쿼리98 tok/s
GPT-5.4 Mini80.0점$0.030/쿼리138 tok/s
DeepSeek V4 Pro79.6점$0.0050/쿼리40 tok/s
Qwen 3.7 Max79.6점$0.035/쿼리61 tok/s
MiniMax M378.9점$0.0026/쿼리26 tok/s
Gemma 4 31B78.8점$0.0009/쿼리14 tok/s
Gemma 4 26B A4B78.5점$0.0009/쿼리81 tok/s
Gemini 3.1 Flash Lite77.9점$0.0017/쿼리114 tok/s
Qwen 3.7 Plus75.6점$0.0062/쿼리53 tok/s
Mimo V2.5 Pro74.9점$0.0085/쿼리44 tok/s
Grok 4.374.5점$0.0059/쿼리109 tok/s
DeepSeek V4 Flash73.4점$0.0010/쿼리77 tok/s
GLM 5.172.3점$0.021/쿼리42 tok/s
Nemotron 3 Ultra 550B72.2점$0.0098/쿼리16 tok/s
Step 3.7 Flash71.8점$0.0028/쿼리120 tok/s
Kimi K2.671.3점$0.030/쿼리40 tok/s
Qwen 3.6 27B67.8점$074 tok/s
EXAONE 4.5 33B61.7점$049 tok/s
Solar Pro 361.4점$0.0022/쿼리79 tok/s
Qwen 3.6 35B A3B58.7점$0.0052/쿼리86 tok/s
HyperCLOVAX SEED Think 32B58.6점$024 tok/s
Mistral Small 450.5점$0.0030/쿼리130 tok/s
Kanana 2 30B-A3B Thinking46.2점$044 tok/s
Gemma 4 E2B44.9점$024 tok/s
HyperCLOVAX SEED 1.5B32.2점$022 tok/s
LFM2.5 8B-A1B31.0점$059 tok/s
By Category

카테고리별 모델 순위

카드 클릭 → 카테고리별 전체 모델 상세 점수