대한민국 비즈니스 AX Benchmark

한국 비즈니스 실무(세무·법무·마케팅·인사·코드·문서·도면 등 총 13개의 과제)에 누가 가장 쓸만한지 측정합니다.

AXyBench 전체 →

AXyBench

전체 평균90.6Claude Opus 4.8· Anthropic

90.6
Claude Opus 4.8
89.9
GPT-5.5
87.7
Gemini 3.1 Pro
86.5
Claude Sonnet 4.6
85.6
Gemini 3.5 Flash
80.0
GPT-5.4 Mini
79.7
Gemma 4 12B
79.6
Qwen 3.7 Max
79.6
DeepSeek V4 Pro
78.9
MiniMax M3
78.8
Gemma 4 31B
78.5
Gemma 4 26B A4B
77.9
Gemini 3.1 Flash Lite
75.6
Qwen 3.7 Plus
74.9
Mimo V2.5 Pro
74.5
Grok 4.3
73.4
DeepSeek V4 Flash
72.3
GLM 5.1
72.2
Nemotron 3 Ultra 550B
71.8
Step 3.7 Flash
71.3
Kimi K2.6
67.8
Qwen 3.6 27B
61.7
EXAONE 4.5 33B
61.4
Solar Pro 3
58.7
Qwen 3.6 35B A3B
58.6
HyperCLOVAX SEED Think 32B
58.5
Qwen 3.5 9B
50.5
Mistral Small 4
46.2
Kanana 2 30B-A3B Thinking
44.9
Gemma 4 E2B
32.2
HyperCLOVAX SEED 1.5B
31.0
LFM2.5 8B-A1B

한국 직무·도메인 · 100점 · 문항당 1회32 / 32 측정

Top StoryAXyBench →

벤치·2026-06-05·10분 읽기

재능이 정반대인 두 소형 모델, Gemma 4 12B vs Qwen3.5-9B

구글 Gemma 4 12B와 알리바바 Qwen3.5-9B를 한국 실무 11개 분야와 문서·도표 판독으로 측정했습니다. 결과가 완벽한 데칼코마니입니다. Gemma는 글은 잘 쓰는데 VL이 약하고, Qwen은 차트 판독은 톱티어인데 한국 세무·노무·생활법률만 나오면 무너집니다.

본문 읽기 →

운영사 제품·CommanderOS·오픈베타

1인 창업가를 위한 AI 비즈니스 OS

홈택스 세무 자동 연동, 계좌·카드 거래 분석, 브라우저 작업 자동화까지. 흩어진 일을 한곳에서 자동으로 끝내는 운영체제를 만들고 있습니다.

둘러보기 →

최신 분석전체 →

분석·2026-06-04

코딩에 올인한 모델, MiniMax M3

글로벌 리더보드에서 난리 난 MiniMax M3를 한국 세무, 노무, 개발, 마케팅 5개 분야 테스트를 진행했습니다. 결론은 극단적입니다. 코딩은 훌륭한데, 한국 관련 지식만 나오면 아무것도 모릅니다.

15분 읽기

분석·2026-06-04

GLM-5.1, Kimi-k2.6, 코딩은 잘하지만 그 외엔 실망스러워

글로벌 오픈웨이트 최상위권인 GLM-5.1과 Kimi K2.6가, AXyBench 한국 실무에선 18·20위 수준입니다. 세무·금융·생활법률 쪽에선 더욱 형편이 없습니다. Anthropic의 증류 주장과 함께 그 이유를 분석해봤습니다.

9분 읽기

벤치·2026-06-03

구글의 Gemma4, Dense 31B vs MoE 26B-A4B 비교

구글의 오픈소스 Gemma 4 듀오, MoE 26B-A4B 모델과 Dense 31B를 AXyBench로 측정했습니다. 평균은 78.5 대 78.6 동점인데, 세무는 작고 싼 모델이 이기고 빽빽한 문서는 큰 모델이 이깁니다. MoE와 Dense가 어디서 갈리는지 응답 원문으로 짚었습니다.

9분 읽기

분석·2026-06-02

엔비디아가 CPU를? 다 이유가 있습니다

GPU가 AI의 전부인 줄 알았다면 꼭 보셔야 하는 글입니다. 정작 엔비디아부터 GPU 아닌 전체 시스템에 집중하고 있죠. 학습에서 추론의 시대로 넘어가며 바뀐 AI 반도체 판을, CommanderOS 자체 추론 운영 경험까지 얹어 풀어봤습니다.

9분 읽기

분석·2026-05-29

국가대표 AI, SOTA 95%가 목표? 숫자는 있는데 내용이 없다

정부 '국가대표 AI'의 목표는 '글로벌 SOTA의 95% 성능'. 그런데 95%, 기준은 명확하게 잡은 걸까? AXyBench로 한국 실무 11개 영역을 재보니, 단순한 평균 점수 파라미터로는 위험하다는 생각이 든다. 환각률인지, 코딩인지, 수학이나 과학인지, 아니면 글쓰기인지 명확한 평가 지표는 있는지가 궁금해진다.

9분 읽기