분석·2026-05-29·9분

국가대표 AI, SOTA 95%가 목표? 숫자는 있는데 내용이 없다

정부 '국가대표 AI'의 목표는 '글로벌 SOTA의 95% 성능'. 그런데 95%, 기준은 명확하게 잡은 걸까? AXyBench로 한국 실무 11개 영역을 재보니, 단순한 평균 점수 파라미터로는 위험하다는 생각이 든다. 환각률인지, 코딩인지, 수학이나 과학인지, 아니면 글쓰기인지 명확한 평가 지표는 있는지가 궁금해진다.

AXyNow
국가대표AI
소버린AI
Opus 4.8
GPT-5.5
AXyBench

프리미엄 AI 매거진 AXyNow, 손상윤입니다.

정부의 '국가대표 AI'(독자 AI 파운데이션 모델) 프로젝트가 속도를 내는 것 같습니다. 네이버클라우드·업스테이지·SKT·NC AI·LG AI연구원 다섯 팀이 6개월마다 평가받으며 경쟁하고, 2팀이 탈락하는 구도죠. 얼마 전엔 국민성장펀드가 업스테이지에 5,600억 원을 직접 투자한다는 소식까지 나왔습니다. 규모도, 속도도 현재까지는 나름대로 잘 달려가는 것 같네요.

그런데 이 프로젝트에 깔린 목표 문장 하나가 계속 걸립니다. "글로벌 최고 모델(SOTA)의 95% 이상 성능 확보."

수천억이 걸린 목표가 이렇게 깔끔한 숫자 하나로 떨어진다는 게, 저는 오히려 불안했습니다. 질문이 하나 떠올랐거든요. 95%, 무엇의 95%인가?

95%, 무엇의 95%인가

성능을 잰다는 건 자(尺)를 댄다는 겁니다. 그럼 어떤 자입니까. MMLU? MMMU? SWE-bench Pro? GPQA? 이 자들은 저마다 다른 것을 잽니다. MMLU는 영어 객관식 지식을, SWE-Pro는 깃허브 이슈 해결을, MMMU는 멀티모달 추론을 재요. 어느 자에 대고 95%냐에 따라, 만들어야 할 모델이 완전히 달라집니다.

95점을 맞혔다 한들, 그건 무슨 과녁의 9점인가. '글로벌 SOTA의 95%'는 정작 과녁의 이름을 비워 둔 목표다.

그리고 결정적으로 이 자들 중 어느 것도 한국 세무·부동산·노동법 실무를 재지 않습니다. 영어 객관식을 95% 맞히는 모델이, 바뀐 한국 양도세 제도를 틀리지 않는다는 보장은 어디에도 없어요. 오히려 그 반대인 경우를 저는 지난 글에서 봤습니다. 국산 LLM들이 '한국어'는 잘하는데, 한국 문화나 제도에 대해서는 한국에 처음 오신 관광객보다 이해도가 부족했었거든요.

그래서 "SOTA의 95%"는 후킹은 되는데, 뜯어보면 숫자만 있고 내용이 없습니다. 무엇의 95%인지, 어느 영역에서의 95%인지, 그리고 틀릴 때 자신있게 틀리지 않는다는 보장이 있는지가 비어 있어요

마침 이걸 짚기 딱 좋은 사건이 이번 주에 있었습니다.

마침, '점수'가 아니라 '정직'을 들고나온 모델

5월 28일 Anthropic이 Claude Opus 4.8을 냈습니다. 코딩·수학 점수가 올랐다는 흔한 소식은 다들 보셨을 테니 한 줄로 넘기겠습니다(SWE-bench Verified 88.6, 가격은 4.7과 동일한 $5/$25). 정작 흥미로운 건 Anthropic이 세일즈 포인트로 내세운 것이었어요. 성능이 아니라 **"더 정직해졌다"**였습니다.

Opus 4.8은 "자기 진행 상황에 더 솔직하고", 과신(overconfidence)이 직전 세대 대비 10배 이상 줄었고, 결함 있는 결과를 무비판적으로 보고하는 비율이 0%(클로드 최초)라고 합니다.

이게 왜 중요하냐면 — 방금 우리가 던진 "95%, 무엇의?"라는 질문의 진짜 답이 여기 있기 때문입니다. 한국 제도 정확성은 모델 안에 지식을 더 우겨넣어서 푸는 문제가 아니에요. 제도는 매년 바뀝니다. 어떤 모델이든 학습 시점에 박제된 지식은 시간이 지나면 낡아요(stale). 이건 RAG·검색으로 외부에서 끌어와 grounding하는 문제지, "더 똑똑한 모델"의 문제가 아닙니다.

그래서 진짜 과녁은 세 가지여야 합니다.

① 자기가 뭘 모르는지 아는 자각, ② 모르면 외부(웹·법령·논문 검색, 연역·귀납 추론)에서 끌어오는 grounding ③ 그래서 이 답을 얼마나 믿어도 되는지 사용자에게 정직하게 말하는 능력.

Opus 4.8이 가리킨 방향이 정확히 여기였고요. 그럼 그 '정직'이 한국 실무에서 실제로 보이느냐. 직접 재봤습니다.

AXyBench로 11개 영역을 재보면 — 단일 숫자의 함정

무엇으로, 어떻게 재느냐가 점수보다 먼저다. AXyBench는 한국 실무 11개 영역을 같은 조건(도구·검색 없이)으로 잰다.

AXyBench 점수는 모델의 "절대 지능"이 아니라 한국 실무 + 고난도 변별 순위입니다. 일부러 어려운 함정을 깔고, 한국 도메인(세무·법무·가계금융 등)을 무겁게 가중합니다. 모두 같은 조건(시스템 프롬프트 없음, 도구 없음, 웹검색 없음)으로 잽니다. 그래서 글로벌 영어·코딩 벤치의 명성과 이 점수는 서로 다른 것을 잽니다.

먼저 종합 평균부터. 채점이 끝난 11개 한국 실무 영역(세무·법무·노무·마케팅·코드·문서·주식·부동산·가계금융·차사고·생활법률)을 한 줄에 세우면 이렇습니다.

모델	11개 영역 종합 평균
Claude Opus 4.8	90.6
GPT-5.5	89.9
Claude Opus 4.7	89.7
Gemini 3.1 Pro	87.7

"Opus 4.8 종합 1위, 90.6점." 이게 우리가 흔히 보는 '한 숫자'입니다. 그리고 정확히 이 한 숫자가 함정입니다. 영역별로 쪼개면 그림이 또 뒤집어집니다.

AXyBench 영역별 점수 — GPT-5.5(시안) vs Opus 4.8(우드). 한국 제도 영역(세무·부동산·가계금융·생활법률)은 대부분 GPT-5.5가 앞선다. 4.8의 종합 1위는 코드(+6.8)·문서(+10.0)의 큰 격차가 끌어올린 결과다.

세무·부동산·가계금융·생활법률 — 한국 제도가 무겁게 걸린 영역은 대부분 GPT-5.5가 이깁니다. 그런데도 Opus 4.8이 종합 1위인 건, 코드와 문서에서 한 자릿수도 아닌 큰 격차로 벌렸기 때문이에요. 즉 "종합 1위 90.6"이라는 숫자는, 정작 '한국 세무에선 누가 강한가'라는 질문을 통째로 가립니다.

이게 "SOTA의 95%"가 위험한 이유입니다. 어느 영역이냐에 따라 승자가 바뀌는데, 단일 점수는 그 뒤집힘을 뭉개버려요. 95%를 따라잡았다 한들, 그게 코드의 95%인지 한국 세무의 95%인지에 따라 완전히 사용 목적이 달라지겠죠. 무턱대고 신뢰할 수 있을까요? 국가대표 AI라면 무릇 최적화된 벤치마크가 체계적이고 구체적으로 있어야하는 것 아닐까요?

점수보다 중요한 건 — "자기가 뭘 모르는지 아는가"

여기까지는 점수표 얘기였습니다. 그런데 4.7과 4.8을 나란히 놓고 답변을 정독하면, 점수에는 잘 안 잡히는 더 중요한 차이가 보입니다. 마케팅 영역에서, "미국 SDR 플레이북(응답률 18~20%, 화요일 오전 10시 발송 등)을 한국에 그대로 써도 되나"를 물었습니다. 그러자 Opus 4.8의 답,

"응답률 18~20%" 이건 한국 데이터가 아닙니다. … 한국 B2B 콜드 이메일 응답률에 대한 신뢰할 만한 공개 벤치마크는 사실상 부족합니다. 제가 "한국은 X%"라고 말하면 그건 지어내는 겁니다.

모델이 자기가 모른다는 걸, 지어내면 지어내는 거라고 자백합니다. 이게 환각 저항의 실체예요. 빈칸을 그럴듯한 숫자로 채우는 대신, "여긴 데이터가 없으니 당신이 직접 소규모 테스트로 재라"고 떠넘기는 정직함. 95% 점수표에는 절대 안 찍히는 능력입니다.

문서 영역에서보면, 사용자가 틀린 전제 두 개("꺾은선은 누적 데이터에만 쓴다", "막대 y축은 최솟값에서 시작하라")를 깔고 차트를 만들어 달라고 했습니다. 그랬더니 Opus 4.8의 답:

결론부터 말씀드리면, 배우신 두 원칙은 둘 다 정확하지 않습니다. 그대로 따르면 오히려 오해를 부르는 차트가 만들어져요. … "꺾은선은 누적 데이터에만" → 사실이 아닙니다.

시키는 대로 만들어 주는 대신, 사용자의 전제를 교정합니다. 챗봇이 가장 안 하는 짓(😢)이죠. 대부분의 모델은 사용자에게 아부해서 틀린 차트를 예쁘게 그려줍니다.

그리고 이 '자각'은 점수로도 한 군데에서 터집니다. 바로 세무예요.

4.7(Sian) → 4.8(Wood) 영역별 변화. 세무 +7.0(자신있게 틀리던 가산세 계산이 교정), 문서 +2.8. 반대로 차사고 −3.2·가계금융 −1.0. 업그레이드는 균일하지 않고, 자각·고위험 영역에 쏠려 있다.

세무에서 4.7은 가산세 계산의 자릿수를 자신있게 틀렸습니다. 4.8은 같은 문제를 정확히 계산하고, 거기에 "국세청 안내문을 이미 받았다면 감면이 배제될 수 있다"는 국세기본법상 단서까지 달았어요. 7점 상승의 정체는 "더 많이 알게 된 것"이 아니라 **"자신있게 틀리는 버릇이 사라진 것"**입니다. 과신을 10배 줄였다는 그 마케팅이, 한국 세무 책상 위에서 실제로 확인된 셈이죠.

단, 4.8도 마냥 안정적이진 않다

위 그래프를 다시 보시면, 차사고는 4.7보다 3.2점 내려갔고, 가계금융도 1점 빠졌습니다. 종합 1위 모델이 어떤 한국 개인 의사결정 영역에선 직전 버전보다 오히려 후퇴한 거예요.

그러니까 "더 정직해졌다"는 "더 똑똑해졌다"와 다릅니다. 4.8의 도약은 자각·보정 능력에, 그리고 세무·문서 같은 고위험 영역에 집중됐을 뿐, 모든 칸을 끌어올린 만능 업그레이드가 아니닙니다. 그리고 이 비대칭이야말로, "단일 점수 하나로 모델을 줄 세우지 말라"는 이 글의 결론을 한 번 더 증명합니다.

결론 — 95%가 아니라, '틀릴 때 어떻게 틀리는가'

"SOTA의 95%"는 과녁이 아니라 슬로건입니다. 무엇의 95%인지(세무? 코드?), 어느 영역에서의 95%인지(영역마다 승자가 뒤집힙니다), 그리고 — 가장 중요한 — 틀릴 때 자신있게 틀리지 않는지가 비어 있으면, 숫자는 있는데 내용이 없는 목표예요.

진짜 과녁은 점수판이 아니라 신뢰 아키텍처여야 합니다. 모르는 걸 모른다고 말하고(자각), 모르면 최신 법령·자료를 검색해 끌어오고(grounding), 그 답을 얼마나 믿어도 되는지 사용자에게 솔직히 알려주는 것. Opus 4.8이 점수가 아니라 '정직'을 들고나온 이유가 여기 있고, 그건 모델 크기가 아니라 한국 데이터·평가·grounding 설계의 문제입니다. 데이터 주권이 필요한 자리라면 더더욱, 자기 데이터 위에서 '틀릴 때 어떻게 틀리는지'를 통제할 수 있느냐가 승부처가 됩니다.

95%라는 숫자에 박수 치기 전에, 한 번만 더 물읍시다. 무엇의 95%인가. 그 빈칸을 채우는 게, 수천억 아니 수조를 내용 있게 쓰는 첫걸음입니다.

영역별 전체 점수와 모델별 강·약점은 → AXyBench 전체 결과 보기

공유X Threads