기술 출력

📑문서 출력

Document output

외피 — 산업 도메인

문서·슬라이드·차트·표

내용 — 측정하는 AI 능력

· 정보 구조화 (계층·우선순위)
· 시각 도식 코드 (PlantUML·Mermaid·SVG)
· 표·구조화 데이터 변환

모델별 종합 점수

✓ 챗봇 1턴

측정일 2026-06-05T02:40:49+00:00 · 5개 항목 × 100점 기준

채점자 editor · max_tokens 32768 · temp 0.7 · attempts 3 · reasoning_effort medium

모델
1Claude Opus 4.8	5/5	99	100	90	84	99	96.8
2MiniMax M3	5/5	94	93	92	79	95	92.2
3Gemini 3.1 Pro	5/5	96	92	84	80	92	90.8
4Claude Sonnet 4.6	5/5	84	84	84	80	96	87.8
5GPT-5.5	5/5	92	88	80	76	88	86.8
6Qwen 3.7 Plus	5/5	84	82	82	78	85	83.0
7Mimo V2.5 Pro	5/5	84	83	84	76	84	82.8
8GLM 5.1	5/5	80	84	84	80	80	81.4
9Gemini 3.1 Flash Lite	5/5	83	82	83	75	80	81.0
10Gemini 3.5 Flash	5/5	80	76	84	80	84	80.8
11Nemotron 3 Ultra 550B	5/5	85	77	72	75	85	80.6
12Gemma 4 31B	5/5	80	80	84	80	80	80.4
13Step 3.7 Flash	5/5	73	88	81	70	79	79.6
14Gemma 4 26B A4B	5/5	82	80	78	75	79	79.4
15Qwen 3.6 27B	5/5	80	79	80	75	79	79.0
16Gemma 4 12B	5/5	81	80	75	62	83	79.0
17Qwen 3.7 Max	5/5	80	80	76	80	76	78.2
18Qwen 3.6 35B A3B	5/5	76	81	70	72	80	77.8
19Kimi K2.6	5/5	80	72	80	76	76	76.2
20GPT-5.4 Mini	5/5	80	76	72	80	72	75.4
21EXAONE 4.5 33B	5/5	70	80	67	50	83	75.0
22DeepSeek V4 Pro	5/5	74	76	67	74	72	73.0
23Grok 4.3	5/5	77	73	71	75	71	73.0
24Mistral Small 4	5/5	73	75	67	74	73	72.8
25DeepSeek V4 Flash	5/5	73	72	66	63	74	71.4
26Qwen 3.5 9B	5/5	68	69	58	71	72	68.8
27Solar Pro 3	5/5	63	74	57	50	72	66.8
28HyperCLOVAX SEED Think 32B	5/5	64	64	48	60	68	63.4
29Kanana 2 30B-A3B Thinking	5/5	54	64	48	42	60	56.8
30Gemma 4 E2B	5/5	47	52	44	44	49	48.4
31LFM2.5 8B-A1B	5/5	35	44	34	35	37	38.0
32HyperCLOVAX SEED 1.5B	5/5	32	42	31	32	35	35.4

문항별 점수

5 문항

각 문항당 모델 세부 점수. 응답 원문·근거는 문항 카드 우측 링크.

문서 출력 · 문항 1시드 IR Traction 슬라이드 1장 — 정밀 제약공개

시드 IR Traction 슬라이드 1장 — 정밀 제약

본문·raw·근거 →

모델

정확성의도 파악신중함한국 맥락짜임새avg

Claude Opus 4.8Anthropic

100100808010096

MiniMax M3Minimax

959290809592

Gemini 3.1 ProGoogle

1008080808084

Claude Sonnet 4.6Anthropic

808080808080

GPT-5.5OpenAI

806060604057

Qwen 3.7 PlusAlibaba

827880788481

Mimo V2.5 ProXiaomi

808580758081

GLM 5.1Z.ai

8010080808085

Gemini 3.1 Flash LiteGoogle

808080758080

Gemini 3.5 FlashGoogle

806080808075

Nemotron 3 Ultra 550BNVIDIA

847078747275

Gemma 4 31BGoogle

808080808080

Step 3.7 FlashStepFun

858580708282

Gemma 4 26B A4BGoogle

808080758080

Qwen 3.6 27BAlibaba

757075757574

Gemma 4 12BGoogle

788080628479

Qwen 3.7 MaxAlibaba

808080808080

Qwen 3.6 35B A3BAlibaba

808075758079

Kimi K2.6Moonshot

804060606059

GPT-5.4 MiniOpenAI

808080808080

EXAONE 4.5 33BLG AI

708060508575

DeepSeek V4 ProDeepSeek

757075756068

Grok 4.3xAI

807575757576

Mistral Small 4Mistral

757075757072

DeepSeek V4 FlashDeepSeek

808080758080

Qwen 3.5 9BAlibaba

786570725565

Solar Pro 3Upstage

556550505556

HyperCLOVAX SEED Think 32BNaver

604040606053

Kanana 2 30B-A3B ThinkingKakao

505545306052

Gemma 4 E2BGoogle

535749495554

LFM2.5 8B-A1BLiquid AI

445142434646

HyperCLOVAX SEED 1.5BNaver

435040424445

문서 출력 · 문항 2트랙션 시각화 판단 — 허영지표·결측 지표비공개

IR 트랙션 허영지표 판단

본문·raw·근거 →

모델

정확성의도 파악신중함한국 맥락짜임새avg

Claude Opus 4.8Anthropic

1001001008010098

MiniMax M3Minimax

929892759593

Gemini 3.1 ProGoogle

8080808010087

Claude Sonnet 4.6Anthropic

80100808010092

GPT-5.5OpenAI

80100808010092

Qwen 3.7 PlusAlibaba

848682788684

Mimo V2.5 ProXiaomi

808580758582

GLM 5.1Z.ai

808080808080

Gemini 3.1 Flash LiteGoogle

809080758082

Gemini 3.5 FlashGoogle

808080808080

Nemotron 3 Ultra 550BNVIDIA

909288729088

Gemma 4 31BGoogle

808080808080

Step 3.7 FlashStepFun

628882706873

Gemma 4 26B A4BGoogle

808580758081

Qwen 3.6 27BAlibaba

808580758081

Gemma 4 12BGoogle

808882628582

Qwen 3.7 MaxAlibaba

808080808080

Qwen 3.6 35B A3BAlibaba

808580758081

Kimi K2.6Moonshot

808080808080

GPT-5.4 MiniOpenAI

808080808080

EXAONE 4.5 33BLG AI

758570508578

DeepSeek V4 ProDeepSeek

809080758082

Grok 4.3xAI

757570757073

Mistral Small 4Mistral

808580758081

DeepSeek V4 FlashDeepSeek

806070207064

Qwen 3.5 9BAlibaba

809080728282

Solar Pro 3Upstage

758570508076

HyperCLOVAX SEED Think 32BNaver

608060606065

Kanana 2 30B-A3B ThinkingKakao

657560506566

Gemma 4 E2BGoogle

576153515958

LFM2.5 8B-A1BLiquid AI

424940424444

HyperCLOVAX SEED 1.5BNaver

495646465251

문서 출력 · 문항 3이중축 차트 — 영업이익 파생 계산 + 음수 0선비공개

이중축 파생계산 정합

본문·raw·근거 →

모델

정확성의도 파악신중함한국 맥락짜임새avg

Claude Opus 4.8Anthropic

1001008010010098

MiniMax M3Minimax

969290809592

Gemini 3.1 ProGoogle

100100808010096

Claude Sonnet 4.6Anthropic

10080808010091

GPT-5.5OpenAI

10080808010091

Qwen 3.7 PlusAlibaba

868280788684

Mimo V2.5 ProXiaomi

858080758582

GLM 5.1Z.ai

808080808080

Gemini 3.1 Flash LiteGoogle

858080758080

Gemini 3.5 FlashGoogle

808080808080

Nemotron 3 Ultra 550BNVIDIA

808570788883

Gemma 4 31BGoogle

808080808080

Step 3.7 FlashStepFun

608878707274

Gemma 4 26B A4BGoogle

858080758080

Qwen 3.6 27BAlibaba

858080758080

Gemma 4 12BGoogle

848080628079

Qwen 3.7 MaxAlibaba

808080808080

Qwen 3.6 35B A3BAlibaba

608040608070

Kimi K2.6Moonshot

808080808080

GPT-5.4 MiniOpenAI

808080808080

EXAONE 4.5 33BLG AI

607050507566

DeepSeek V4 ProDeepSeek

858080758582

Grok 4.3xAI

807575757074

Mistral Small 4Mistral

858080758080

DeepSeek V4 FlashDeepSeek

858080758080

Qwen 3.5 9BAlibaba

557050727567

Solar Pro 3Upstage

456540506557

HyperCLOVAX SEED Think 32BNaver

608060608072

Kanana 2 30B-A3B ThinkingKakao

456040506054

Gemma 4 E2BGoogle

424940424444

LFM2.5 8B-A1BLiquid AI

314131323234

HyperCLOVAX SEED 1.5BNaver

172917192222

문서 출력 · 문항 4차트 거짓 전제 — y축 최솟값·막대 강제 교정비공개

거짓 전제 차트 교정

본문·raw·근거 →

모델

정확성의도 파악신중함한국 맥락짜임새avg

Claude Opus 4.8Anthropic

1001001008010098

MiniMax M3Minimax

929298789291

Gemini 3.1 ProGoogle

100100100808091

Claude Sonnet 4.6Anthropic

80801008010089

GPT-5.5OpenAI

1001001008010098

Qwen 3.7 PlusAlibaba

848486788484

Mimo V2.5 ProXiaomi

8585100808586

GLM 5.1Z.ai

8080100808082

Gemini 3.1 Flash LiteGoogle

808095758081

Gemini 3.5 FlashGoogle

80801008010089

Nemotron 3 Ultra 550BNVIDIA

804838748268

Gemma 4 31BGoogle

8080100808082

Step 3.7 FlashStepFun

788885688583

Gemma 4 26B A4BGoogle

757570757574

Qwen 3.6 27BAlibaba

808085758080

Gemma 4 12BGoogle

786852607871

Qwen 3.7 MaxAlibaba

808060806071

Qwen 3.6 35B A3BAlibaba

808080758080

Kimi K2.6Moonshot

8080100808082

GPT-5.4 MiniOpenAI

806040804057

EXAONE 4.5 33BLG AI

708085508076

DeepSeek V4 ProDeepSeek

406020705551

Grok 4.3xAI

707060756066

Mistral Small 4Mistral

406020705551

DeepSeek V4 FlashDeepSeek

406020706053

Qwen 3.5 9BAlibaba

403512686046

Solar Pro 3Upstage

657555508070

HyperCLOVAX SEED Think 32BNaver

604020606051

Kanana 2 30B-A3B ThinkingKakao

556545505556

Gemma 4 E2BGoogle

334231333536

LFM2.5 8B-A1BLiquid AI

273825272930

HyperCLOVAX SEED 1.5BNaver

273926283031

문서 출력 · 문항 5환불 워크플로 — 하자>7일 우선순위 역전비공개

환불 우선순위 역전

본문·raw·근거 →

모델

정확성의도 파악신중함한국 맥락짜임새avg

Claude Opus 4.8Anthropic

9510090809594

MiniMax M3Minimax

959288829693

Gemini 3.1 ProGoogle

100100808010096

Claude Sonnet 4.6Anthropic

8080808010087

GPT-5.5OpenAI

100100808010096

Qwen 3.7 PlusAlibaba

848280788482

Mimo V2.5 ProXiaomi

908080758583

GLM 5.1Z.ai

808080808080

Gemini 3.1 Flash LiteGoogle

908080758082

Gemini 3.5 FlashGoogle

808080808080

Nemotron 3 Ultra 550BNVIDIA

929085759289

Gemma 4 31BGoogle

808080808080

Step 3.7 FlashStepFun

829082709086

Gemma 4 26B A4BGoogle

908080758082

Qwen 3.6 27BAlibaba

808080758080

Gemma 4 12BGoogle

868682628884

Qwen 3.7 MaxAlibaba

808080808080

Qwen 3.6 35B A3BAlibaba

808075758079

Kimi K2.6Moonshot

808080808080

GPT-5.4 MiniOpenAI

808080808080

EXAONE 4.5 33BLG AI

758570509080

DeepSeek V4 ProDeepSeek

908080758082

Grok 4.3xAI

807075758076

Mistral Small 4Mistral

858080758080

DeepSeek V4 FlashDeepSeek

808080758080

Qwen 3.5 9BAlibaba

858580728884

Solar Pro 3Upstage

758070508075

HyperCLOVAX SEED Think 32BNaver

808060608076

Kanana 2 30B-A3B ThinkingKakao

556550306056

Gemma 4 E2BGoogle

485347475050

LFM2.5 8B-A1BLiquid AI

334231333536

HyperCLOVAX SEED 1.5BNaver

243624252728