본문으로 건너뛰기
AXyNowAX IS NOW

한국 AI 비즈니스 실무 벤치마크 + 운영 블로그

한국 실무 과제 · 주요 AI 모델 · 100점 채점

AX Benchmark

대한민국 비즈니스 AX Benchmark

한국 비즈니스 실무(세무·법무·마케팅·인사·코드·문서·도면 등 총 13개의 과제)에 누가 가장 쓸만한지 측정합니다.

AXyBench 전체 →
AXyBench
전체 평균90.6Claude Opus 4.8· Anthropic
  1. 90.6
    Claude Opus 4.8
  2. 89.9
    GPT-5.5
  3. 87.7
    Gemini 3.1 Pro
  4. 86.5
    Claude Sonnet 4.6
  5. 85.6
    Gemini 3.5 Flash
  6. 80.0
    GPT-5.4 Mini
  7. 79.7
    Gemma 4 12B
  8. 79.6
    Qwen 3.7 Max
  9. 79.6
    DeepSeek V4 Pro
  10. 78.9
    MiniMax M3
  11. 78.8
    Gemma 4 31B
  12. 78.5
    Gemma 4 26B A4B
  13. 77.9
    Gemini 3.1 Flash Lite
  14. 75.6
    Qwen 3.7 Plus
  15. 74.9
    Mimo V2.5 Pro
  16. 74.5
    Grok 4.3
  17. 73.4
    DeepSeek V4 Flash
  18. 72.3
    GLM 5.1
  19. 72.2
    Nemotron 3 Ultra 550B
  20. 71.8
    Step 3.7 Flash
  21. 71.3
    Kimi K2.6
  22. 67.8
    Qwen 3.6 27B
  23. 61.7
    EXAONE 4.5 33B
  24. 61.4
    Solar Pro 3
  25. 58.7
    Qwen 3.6 35B A3B
  26. 58.6
    HyperCLOVAX SEED Think 32B
  27. 58.5
    Qwen 3.5 9B
  28. 50.5
    Mistral Small 4
  29. 46.2
    Kanana 2 30B-A3B Thinking
  30. 44.9
    Gemma 4 E2B
  31. 32.2
    HyperCLOVAX SEED 1.5B
  32. 31.0
    LFM2.5 8B-A1B
한국 직무·도메인 · 100점 · 문항당 1회32 / 32 측정
Top StoryAXyBench →
최신 분석전체 →
뉴스 · 브리핑전체 →