재능이 정반대인 두 소형 모델, Gemma 4 12B vs Qwen3.5-9B
구글 Gemma 4 12B와 알리바바 Qwen3.5-9B를 한국 실무 11개 분야와 문서·도표 판독으로 측정했습니다. 결과가 완벽한 데칼코마니입니다. Gemma는 글은 잘 쓰는데 VL이 약하고, Qwen은 차트 판독은 톱티어인데 한국 세무·노무·생활법률만 나오면 무너집니다.
본문 읽기 →한국 AI 비즈니스 실무 벤치마크 + 운영 블로그
한국 실무 과제 · 주요 AI 모델 · 100점 채점
AX Benchmark
한국 비즈니스 실무(세무·법무·마케팅·인사·코드·문서·도면 등 총 13개의 과제)에 누가 가장 쓸만한지 측정합니다.
AXyBench 전체 →