U자 비용곡선·사다리꼴 적분·이중축 함정
비공개 문항 — 학습 오염 방지. 측정 영상에서 응답 원문과 함께 본문 공개.
기대 포맷동시성/단가, SLA 선택, 누적 토큰량, 각주 환산 단가
사전 정의 함정3건 — 발동 모델에 ⚠ 표시
모델별 응답 · 채점
20개 모델. 점수만 보임 — 모델명 클릭 시 raw·근거·cross 펼침.
Claude Opus 4.8Anthropic100100100100100100
**(1) 최소 단가 동시성** 표 1·그림 1 기준, 단가는 동시성 16에서 최저 **63원/1k req**. **(2) SLA 충족 + 단가 최소 동시성** P95 ≤ 100ms를 만족하는 구간은 동시성 ≤ 24 (P95: 2→40, 4→45, 8→52, 16→68, 24→95ms). 32(140ms)·48(210ms)은 위반. 이 중 단가를 보면 16=63원, 24=67원 → 최소는 **동시성 16 (63원/1k req)**. (16이 SLA도 만족하고 단가도 최저) **(3) 0~40분 누적 토큰량 (사다리꼴)** 값(만 tok/분): 0분=0, 10=30, 20=60, 30=80, 40=90 - (0+30)/2×10 = 150 - (30+60)/2×10 = 450 - (60+80)/2×10 = 700 - (80+90)/2×10 = 850 합계 = **2,150 만 tok** **(4) 동시성 16 온디맨드 환산 단가** 각주 1: 63원은 스팟 기준이며 온디맨드 환산 시 **71원/1k req**.
채점 근거4파트 완답: 동시성16/63원(U자·dual-axis 회피) + SLA 필터 16 + 사다리꼴 2,150만(적분) + 온디맨드 71원(각주). 표1 직접노출로 난도 붕괴 = 전원 통과.
Gemini 3.1 ProGoogle100100100100100100
첨부된 분석 보고서를 바탕으로 요청하신 질문에 대한 답변은 다음과 같습니다.
**(1) 그림 1에서 요청 단가가 최소가 되는 동시성 설정과 그 단가는?**
* **동시성:** 16
* **단가:** 63원 (표 1 및 그림 1의 파란색 실선 최저점 참고)
**(2) 운영 SLA(P95 ≤ 100ms)를 지키면서 단가를 최소화하려면 동시성을 얼마로 설정해야 하는가?**
* **동시성 16**
* 이유: 지연 시간(P95)이 100ms 이하를 만족하는 동시성 구간은 2, 4, 8, 16, 24입니다(각각 40, 45, 52, 68, 95ms). 이 구간 중 단가가 가장 낮은 지점은 동시성 16(63원)입니다.
**(3) 그림 2 기준, 부하시험 0~40분 구간에 누적 처리된 토큰량(만 tok)은? (사다리꼴 근사)**
* **2,150만 tok**
* 계산식 (구간별 면적 합산, 밑변=10분):
* 0~10분: (0 + 30) / 2 × 10 = 150
* 10~20분: (30 + 60) / 2 × 10 = 450
* 20~30분: (60 + 80) / 2 × 10 = 700
* 30~40분: (80 + 90) / 2 × 10 = 850
* 총합: 150 + 450 + 700 + 850 = 2,150
**(4) 각주를 반영할 때 동시성 16의 '온디맨드' 환산 단가는?**
* **71원**
* 이유: 표 하단의 '* 각주 1'에 "동시성 16의 단가 63원은 스팟 인스턴스 기준이며, 온디맨드 환산 시 71원이다."라고 명시되어 있습니다.채점 근거4파트 완답: 동시성16/63원(U자·dual-axis 회피) + SLA 필터 16 + 사다리꼴 2,150만(적분) + 온디맨드 71원(각주). 표1 직접노출로 난도 붕괴 = 전원 통과.
Gemini 3.5 FlashGoogle100100100100100100
제공된 분석 자료를 바탕으로 각 질문에 대한 답변을 작성하였습니다.
---
### **(1) 그림 1에서 요청 단가(원/1k req)가 최소가 되는 동시성 설정과 그 단가는?**
* **답변:** **동시성 16, 단가 63원** (63원/1k req)
* **설명:** 그림 1의 좌측 축(파란색 실선) 및 표 1의 단가 데이터를 보면 동시성 16에서 단가가 63원으로 가장 낮습니다.
---
### **(2) 운영 SLA(P95 ≤ 100ms)를 지키면서 단가를 최소화하려면 동시성을 얼마로 설정해야 하는가?**
* **답변:** **동시성 16**
* **설명:**
* 지연 P95가 100ms 이하를 만족하는 동시성 구간은 **2, 4, 8, 16, 24**입니다 (각각 지연시간 40ms, 45ms, 52ms, 68ms, 95ms).
* 이 중 단가가 가장 저렴한 구간은 **동시성 16**(단가 63원)입니다. (동시성 24는 지연시간이 95ms로 SLA는 만족하지만 단가가 67원으로 더 비쌉니다.)
---
### **(3) 그림 2 기준, 부하시험 0~40분 구간에 누적 처리된 토큰량(만 tok)은? (사다리꼴 근사)**
* **답변:** **2,150만 tok** (21,500,000 토큰)
* **계산 과정:**
그림 2의 10분 단위 데이터 포인트 $y(t)$는 다음과 같습니다:
* $y(0) = 0$
* $y(10) = 30$
* $y(20) = 60$
* $y(30) = 80$
* $y(40) = 90$
각 10분 구간별 사다리꼴 면적(처리량 = $\frac{\text{시작값} + \text{끝값}}{2} \times \text{시간(10분)}$)을 구하여 더합니다:
1. **0 ~ 10분 구간:** $\frac{0 + 30}{2} \times 10 = 150$만 tok
2. **10 ~ 20분 구간:** $\frac{30 + 60}{2} \times 10 = 450$만 tok
3. **20 ~ 30분 구간:** $\frac{60 + 80}{2} \times 10 = 700$만 tok
4. **30 ~ 40분 구간:** $\frac{80 + 90}{2} \times 10 = 850$만 tok
* **누적 합계:** $150 + 450 + 700 + 850 = \mathbf{2,150}$**만 tok**
---
### **(4) 각주를 반영할 때 동시성 16의 '온디맨드' 환산 단가는?**
* **답변:** **71원** (71원/1k req)
* **설명:** 표 아래의 각주 1번을 보면, *"동시성 16의 단가 63원은 스팟 인스턴스 기준이며, 온디맨드 환산 시 71원이다"*라고 명시되어 있습니다.채점 근거4파트 완답: 동시성16/63원(U자·dual-axis 회피) + SLA 필터 16 + 사다리꼴 2,150만(적분) + 온디맨드 71원(각주). 표1 직접노출로 난도 붕괴 = 전원 통과.
Gemini 3.1 Flash LiteGoogle100100100100100100
제공해주신 '추론 서빙 동시성 최적화 및 부하 누적 분석' 자료를 바탕으로 질문에 답변드립니다. **(1) 그림 1에서 요청 단가(원/1k req)가 최소가 되는 동시성 설정과 그 단가는?** * **동시성 설정:** 16 * **단가:** 63원/1k req * (표 1 및 그림 1의 파란색 실선 그래프를 통해 확인 가능) **(2) 운영 SLA(P95 ≤ 100ms)를 지키면서 단가를 최소화하려면 동시성을 얼마로 설정해야 하는가?** * **동시성 설정:** 16 * SLA 기준(100ms 이하)을 만족하는 동시성 구간은 2, 4, 8, 16, 24입니다. 이 중에서 단가가 가장 낮은 지점은 63원인 동시성 16입니다. (동시성 24의 단가는 67원) **(3) 그림 2 기준, 부하시험 0~40분 구간에 누적 처리된 토큰량(만 tok)은? (사다리꼴 근사)** 각 구간(10분 단위)의 사다리꼴 면적을 합산합니다. * 0~10분: (0 + 30) / 2 * 10 = 150 * 10~20분: (30 + 60) / 2 * 10 = 450 * 20~30분: (60 + 80) / 2 * 10 = 700 * 30~40분: (80 + 90) / 2 * 10 = 850 * **누적 합계:** 150 + 450 + 700 + 850 = **2,150만 토큰** **(4) 각주를 반영할 때 동시성 16의 '온디맨드' 환산 단가는?** * **단가:** 71원 * (표 1 하단 각주 1에 "동시성 16의 단가 63원은 스팟 인스턴스 기준이며, 온디맨드 환산 시 71원이다"라고 명시되어 있음)
채점 근거4파트 완답: 동시성16/63원(U자·dual-axis 회피) + SLA 필터 16 + 사다리꼴 2,150만(적분) + 온디맨드 71원(각주). 표1 직접노출로 난도 붕괴 = 전원 통과.
GPT-5.5OpenAI100100100100100100
(1) **동시성 16**, 요청 단가 **63원/1k req**가 최소입니다. (2) SLA **P95 ≤ 100ms**를 만족하면서 단가를 최소화하려면 **동시성 16**으로 설정해야 합니다. - 동시성 16: P95 **68ms**, 단가 **63원/1k req** (3) 그림 2의 0~40분 누적 처리량, 사다리꼴 근사: - 0~10분: (0+30)/2 × 10 = 150 - 10~20분: (30+60)/2 × 10 = 450 - 20~30분: (60+80)/2 × 10 = 700 - 30~40분: (80+90)/2 × 10 = 850 합계 = **2,150만 tok** (4) 각주 반영 시 동시성 16의 **온디맨드 환산 단가**는 **71원/1k req**입니다.
채점 근거4파트 완답: 동시성16/63원(U자·dual-axis 회피) + SLA 필터 16 + 사다리꼴 2,150만(적분) + 온디맨드 71원(각주). 표1 직접노출로 난도 붕괴 = 전원 통과.
GPT-5.4 MiniOpenAI100100100100100100
다음과 같습니다. 1) **그림 1에서 요청 단가 최소 동시성** - **동시성 16** - **단가: 63원/1k req** 2) **SLA(P95 ≤ 100ms)를 지키며 단가 최소화** - SLA를 만족하는 동시성은 **2, 4, 8, 16, 24** - 이 중 단가가 가장 낮은 것은 **동시성 16** - 따라서 **동시성 16으로 설정** 3) **그림 2 기준 0~40분 누적 토큰량(사다리꼴 근사)** - 처리량(만 tok/분): 0, 30, 60, 80, 90 - 구간별 사다리꼴 면적: - 0~10분: (0+30)/2 × 10 = **150** - 10~20분: (30+60)/2 × 10 = **450** - 20~30분: (60+80)/2 × 10 = **700** - 30~40분: (80+90)/2 × 10 = **850** - 합계: **2150만 tok** 4) **각주 반영 시 동시성 16의 ‘온디맨드’ 환산 단가** - 각주에 따르면 동시성 16의 63원(스팟 기준)은 온디맨드 환산 시 **71원/1k req** **정답 요약** 1. **16, 63원/1k req** 2. **16** 3. **2150만 tok** 4. **71원/1k req**
채점 근거4파트 완답: 동시성16/63원(U자·dual-axis 회피) + SLA 필터 16 + 사다리꼴 2,150만(적분) + 온디맨드 71원(각주). 표1 직접노출로 난도 붕괴 = 전원 통과.
Kimi K2.6Moonshot100100100100100100
첨부된 보고서의 그림·표·각주를 바탕으로 답변하면 다음과 같습니다. **(1) 요청 단가가 최소가 되는 동시성 설정과 그 단가** - **동시성 16**, **63 원/1k req** (표 1 및 그림 1의 단가 곡선에서 최저점은 동시성 16의 63원입니다.) **(2) 운영 SLA(P95 ≤ 100ms)를 지키면서 단가를 최소화하는 동시성** - **동시성 16** SLA 조건(P95 ≤ 100ms)을 만족하는 동시성은 2, 4, 8, 16, 24입니다. 이들 중 단가가 가장 낮은 것은 동시성 16(63원/1k req, P95 68ms)입니다. (동시성 24는 P95 95ms로 SLA는 만족하나 단가가 67원으로 더 높습니다.) **(3) 그림 2 기준, 부하시험 0~40분 구간 누적 처리 토큰량(사다리꼴 근사)** - **2,150 만 tok** 각 10분 구간을 사다리꼴로 근사하여 면적(=누적 토큰량)을 계산하면 다음과 같습니다. - 0~10분: (0+30)/2 × 10 = 150 - 10~20분: (30+60)/2 × 10 = 450 - 20~30분: (60+80)/2 × 10 = 700 - 30~40분: (80+90)/2 × 10 = 850 → 합계: 150 + 450 + 700 + 850 = **2,150 만 tok** **(4) 각주 반영 시 동시성 16의 온디맨드 환산 단가** - **71 원/1k req** (각주 1에 명시되어 있습니다. 스팟 기준 63원의 온디맨드 환산 단가는 71원입니다.)
채점 근거4파트 완답: 동시성16/63원(U자·dual-axis 회피) + SLA 필터 16 + 사다리꼴 2,150만(적분) + 온디맨드 71원(각주). 표1 직접노출로 난도 붕괴 = 전원 통과.
Qwen 3.6 35B A3BAlibaba100100100100100100
제공된 보고서 이미지와 표, 각주 정보를 바탕으로 답변드립니다.
**(1) 그림 1에서 요청 단가(원/1k req)가 최소가 되는 동시성 설정과 그 단가는?**
* **답변:** **동시성 16, 단가 63원**
* **해설:** 그림 1의 파란색 실선(단가)과 표 1을 확인하면, 동시성 16일 때 단가가 **63원**으로 가장 낮게 나타납니다.
**(2) 운영 SLA(P95 ≤ 100ms)를 지키면서 단가를 최소화하려면 동시성을 얼마로 설정해야 하는가?**
* **답변:** **동시성 16**
* **해설:**
* SLA 조건인 지연 P95 ≤ 100ms를 만족하는 구간을 찾습니다. 표 1에서 동시성 24까지는 지연 시간이 95ms로 조건을 만족하지만, 동시성 32부터는 140ms로 조건을 벗어나므로 동시성 24까지만 고려해야 합니다.
* 이 구간(동시성 2~24)에서 단가를 비교하면, 동시성 16일 때 **63원**으로 최저입니다. (동시성 24는 67원)
**(3) 그림 2 기준, 부하시험 0~40분 구간에 누적 처리된 토큰량(만 tok)은? (사다리꼴 근사)**
* **답변:** **2,150 만 tok**
* **해설:**
* 그림 2의 y축 단위가 '만 tok/분'이므로, 이 그래프는 **순간 처리량(Rate)**을 나타냅니다. 누적 처리량을 구하려면 0~40분 구간의 그래프 아래 면적(적분)을 계산해야 합니다.
* 사다리꼴 공식 `(위변 + 아래변) * 높이 / 2`를 적용하여 구간별 면적을 계산합니다.
* 0~10분: `(0 + 30) * 10 / 2 = 150`
* 10~20분: `(30 + 60) * 10 / 2 = 450`
* 20~30분: `(60 + 80) * 10 / 2 = 700`
* 30~40분: `(80 + 90) * 10 / 2 = 850`
* 총 누적량: `150 + 450 + 700 + 850 = 2,150`
**(4) 각주를 반영할 때 동시성 16의 '온디맨드' 환산 단가는?**
* **답변:** **71원**
* **해설:** 문서 하단 **각주 1**에 "동시성 16의 단가 63원은 스팟 인스턴스 기준이며, **온디맨드 환산 시 71원**이다"라고 명시되어 있습니다.채점 근거4파트 완답: 동시성16/63원(U자·dual-axis 회피) + SLA 필터 16 + 사다리꼴 2,150만(적분) + 온디맨드 71원(각주). 표1 직접노출로 난도 붕괴 = 전원 통과.
Grok 4.3xAI100100100100100100
(1) 동시성 16, 63원 (그림 1·표 1 최솟값) (2) 16 (P95 68 ms ≤ 100 ms이며 단가 최저) (3) 2150 (사다리꼴 적분: 구간 평균×10 min 합산) (4) 71원 (각주 1 온디맨드 환산값) The answers are obtained directly from the provided figure and table data, using linear interpolation where needed for the trapezoidal integral in (3).
채점 근거4파트 완답: 동시성16/63원(U자·dual-axis 회피) + SLA 필터 16 + 사다리꼴 2,150만(적분) + 온디맨드 71원(각주). 표1 직접노출로 난도 붕괴 = 전원 통과. 영어 부연 메모 i 경미. [정정] 영어 부연/후속제안은 capability 아닌 스타일 → i 미감점(비대칭 철회).
Claude Sonnet 4.6Anthropic100100100100100100
## 답변 --- ### (1) 단가 최소 동시성 설정 **표 1** 단가 행에서 최솟값을 확인합니다. | 동시성 | 2 | 4 | 8 | **16** | 24 | 32 | 48 | |---|---|---|---|---|---|---|---| | 단가(원/1k req) | 142 | 98 | 71 | **63** | 67 | 88 | 134 | > **동시성 16**, 단가 **63원/1k req** --- ### (2) SLA(P95 ≤ 100 ms) 충족 + 단가 최소 P95 ≤ 100 ms 조건을 만족하는 설정만 추립니다. | 동시성 | P95(ms) | SLA 충족 | 단가 | |---|---|---|---| | 2 | 40 | ✅ | 142 | | 4 | 45 | ✅ | 98 | | 8 | 52 | ✅ | 71 | | **16** | **68** | ✅ | **63** | | 24 | 95 | ✅ | 67 | | 32 | 140 | ❌ | — | | 48 | 210 | ❌ | — | > **동시성 16** → SLA 준수(P95 = 68 ms) & 최저 단가 **63원/1k req** --- ### (3) 0~40분 누적 처리 토큰량 (사다리꼴 근사) 세로축 단위: **만 tok/분**, 각 구간 Δt = 10분 | 구간(분) | 시작값 | 끝값 | 사다리꼴 면적 | |---|---|---|---| | 0 → 10 | 0 | 30 | (0+30)/2 × 10 = **150 만 tok** | | 10 → 20 | 30 | 60 | (30+60)/2 × 10 = **450 만 tok** | | 20 → 30 | 60 | 80 | (60+80)/2 × 10 = **700 만 tok** | | 30 → 40 | 80 | 90 | (80+90)/2 × 10 = **850 만 tok** | | **합계** | | | **2,150 만 tok** | > **약 2,150 만 tok** --- ### (4) 동시성 16의 온디맨드 환산 단가 각주 1에 명시: > *"동시성 16의 단가 63원은 **스팟 인스턴스** 기준이며, **온디맨드 환산 시 71원**이다."* > **71원/1k req**
채점 근거4파트 완답: 동시성16/63원(U자·dual-axis 회피) + SLA 필터 16 + 사다리꼴 2,150만(적분) + 온디맨드 71원(각주). 표1 직접노출로 난도 붕괴 = 전원 통과.
Qwen 3.7 PlusAlibaba100100100100100100
제공된 문서를 바탕으로 한 답변입니다.
**(1) 동시성 16, 63원**
* **근거:** 그림 1의 실선(단가)과 표 1을 보면, 동시성이 16일 때 단가가 63원으로 가장 낮습니다(U자형 곡선의 최저점).
**(2) 16**
* **근거:** 운영 SLA인 P95 ≤ 100ms를 만족하는 동시성은 2, 4, 8, 16, 24입니다(표 1 참조: 24일 때 95ms). 이 중 단가가 가장 낮은 것은 동시성 16(63원)입니다. (동시성 24는 67원)
**(3) 2,150**
* **계산 과정 (사다리꼴 근사):**
* 0~10분: $(0 + 30) \times 10 / 2 = 150$
* 10~20분: $(30 + 60) \times 10 / 2 = 450$
* 20~30분: $(60 + 80) \times 10 / 2 = 700$
* 30~40분: $(80 + 90) \times 10 / 2 = 850$
* **합계:** $150 + 450 + 700 + 850 = 2,150$ (만 tok)
**(4) 71원**
* **근거:** 문서 하단의 '* 각주 1'에 "동시성 16의 단가 63원은 스팟 인스턴스 기준이며, 온디맨드 환산 시 71원이다"라고 명시되어 있습니다.채점 근거doc6(정량추론 Lv3+, CharXiv reasoning 직격) — (1) U자 최저 동시성16/63원 ✓ (2) ★ SLA P95≤100 제약 적용해 후보필터(24는 95ms 충족하나 67원 더 비쌈, 16이 최소) ✓ (3) 사다리꼴 적분 2,150만(150+450+700+850) ✓ (4) ★ 각주 스팟63→온디맨드71 ✓. 최적화·적분·dual-axis·각주 4종 전부 정확.
시그니처“qwen3.7-plus, doc6 U자 최저16/63·SLA제약 비용최소·적분 2150·온디맨드 71 전부 정확 — 정량추론 만점”
MiniMax M3Minimax100981009610099
# 추론 서빙 동시성 최적화 분석 답안 ## (1) 그림 1에서 요청 단가가 최소가 되는 동시성 설정 **동시성 16, 단가 63원/1k req** 표 1 데이터를 보면 단가 곡선은 U자 형태: | 동시성 | 2 | 4 | 8 | **16** | 24 | 32 | 48 | |--------|----|----|----|----|----|----|----| | 단가(원/1k req) | 142 | 98 | 71 | **63** | 67 | 88 | 134 | - 저동시성(2~4): GPU 점유율 22~38%로 **유휴 비용**이 단가를 끌어올림 - 고동시성(32~48): P95 140~210ms로 **지연 증가**가 단가를 다시 끌어올림 - **동시성 16에서 U자형 최저점(=수확 극대점)** --- ## (2) 운영 SLA(P95 ≤ 100ms) 하 단가 최소화 SLA(P95 ≤ 100ms) 충족 구간을 먼저 필터링: | 동시성 | P95 (ms) | SLA(≤100) | 단가 | |--------|----------|-----------|------| | 2 | 40 | ✓ | 142 | | 4 | 45 | ✓ | 98 | | 8 | 52 | ✓ | 71 | | **16** | **68** | ✓ | **63** ← 최소 | | 24 | 95 | ✓ | 67 | | 32 | 140 | ✗ | (제외) | | 48 | 210 | ✗ | (제외) | **→ 동시성 16 설정 (P95 = 68ms, 단가 63원/1k req)** SLA 한도(100ms) 대비 약 32ms의 여유(headroom)를 확보하면서도 단가 최저점을 달성하므로, **운영 권장값은 동시성 16**. --- ## (3) 그림 2, 0~40분 누적 처리 토큰량 (사다리꼴 근사) 세로축 단위가 **만 tok/분**이므로, 구간별 (상단+하단)/2 × Δt(분) 으로 적분: | 구간(분) | f(시작) | f(끝) | 평균 × 10분 | |----------|---------|-------|------------| | 0 ~ 10 | 0 | 30 | (0+30)/2 × 10 = **150** | | 10 ~ 20 | 30 | 60 | (30+60)/2 × 10 = **450** | | 20 ~ 30 | 60 | 80 | (60+80)/2 × 10 = **700** | | 30 ~ 40 | 80 | 90 | (80+90)/2 × 10 = **850** | **누적 합계 = 150 + 450 + 700 + 850 = 2,150 만 tok** (= 약 2,150만 토큰 ≈ 2,150 × 10⁴ tok) --- ## (4) 동시성 16의 '온디맨드' 환산 단가 > *"각주 1. 동시성 16의 단가 63원은 스팟 인스턴스 기준이며, 온디맨드 환산 시 **71원**이다."* **→ 온디맨드 환산 단가 = 71원/1k req** 스팟(63원) 대비 **+8원(≈ +12.7%)** 의 비용 증가이며, 본 보고서의 그림 1·표 1은 비교 일관성을 위해 스팟 기준 63원을 사용했음을 유의. --- ## 요약 | 문항 | 정답 | |------|------| | (1) 단가 최소점 | 동시성 **16**, 63원/1k req | | (2) SLA 하 최적 | 동시성 **16** (P95=68ms, 63원) | | (3) 0~40분 누적 토큰 | **2,150 만 tok** | | (4) 동시성 16 온디맨드 환산 | **71원/1k req** |
채점 근거doc6: U자 최저 동시성16/63원·SLA(P95≤100) 필터로 32/48 탈락 후 16·0~40분 사다리꼴 2150만tok·각주 온디맨드 71원 4문항 전부 정확. dual-axis 혼동 없음.
Step 3.7 FlashStepFun100981009610099
(1) 동시성 **16**, 단가 **63원/1k req** (표 1 기준) (2) 동시성 **16** (P95 68ms로 SLA 만족, 동시성 24는 95ms로 SLA를 만족하나 단가 67원으로 더 비쌈) (3) **2,150만 tok** (사다리꼴 적분: 0-10분 150 + 10-20분 450 + 20-30분 700 + 30-40분 850 = 2,150) (4) **71원/1k req** (각주 1: 스팟 63원의 온디맨드 환산 값)
채점 근거doc6: U자 최저 동시성16/63원·SLA(P95) 만족 16(24는 67원 더 비쌈)·0~40분 사다리꼴 2150만tok·각주 온디맨드 71원 4문항 전부 정확.
Qwen 3.5 9BAlibaba969294909594
보고서 내용을 바탕으로 답변은 다음과 같습니다.
**(1) 그림 1에서 요청 단가(원/1k req)가 최소가 되는 동시성 설정과 그 단가는?**
* **동시성:** 16
* **단가:** 63 원
* *근거: 그림 1 파란색 실선 (단가) 을 보면 동시성 16 에서 가장 낮은 63 원의 값을 보입니다.*
**(2) 운영 SLA(P95 ≤ 100ms) 를 지키면서 단가를 최소화하려면 동시성을 얼마로 설정해야 하는가?**
* **동시성:** 16
* *근거: SLA 조건인 지연 P95 100ms 이하를 만족하는 구간 (동시성 2, 4, 8, 16, 24) 에서 단가를 비교하면, 동시성 16 (63 원) 이 가장 낮습니다. 동시성 24 는 67 원으로 더 비쌉니다.*
**(3) 그림 2 기준, 부하시험 0~40 분 구간에 누적 처리된 토큰량(만 tok)은? (사다리꼴 근사)**
* **누적 토큰량:** 2,150 만 tok
* *계산 과정:*
* 0~10 분: $(0 + 30) \times 10 \div 2 = 150$
* 10~20 분: $(30 + 60) \times 10 \div 2 = 450$
* 20~30 분: $(60 + 80) \times 10 \div 2 = 700$
* 30~40 분: $(80 + 90) \times 10 \div 2 = 850$
* 합계: $150 + 450 + 700 + 850 = 2,150$
**(4) 각주를 반영할 때 동시성 16 의 '온디맨드' 환산 단가는?**
* **환산 단가:** 71 원
* *근거: 표 1 하단 각주 1 에 "동시성 16 의 단가 63 원은 스팟 인스턴스 기준이며, 온디맨드 환산 시 71 원이다."라고 명시되어 있습니다.*채점 근거doc6 정량추론차트(g,s,c,i): q1 U자 최저 동시성16/63원·★q2 SLA(P95≤100ms) 제약 적용해 16 선택(24=67원 명시)·q3 사다리꼴 적분 2,150만tok(150+450+700+850)·q4 각주 스팟63→온디맨드71 4개 전부 정확. dual-axis 함정 회피.
HyperCLOVAX SEED Think 32BNaver1009010010010099
(1) **동시성 16, 단가 63원**
그림 1의 단가 그래프(파란색)는 U자형으로 최저점을 동시성 16에서 찍으며, 표 1에서 해당 단가는 63원/1k req로 확인됩니다.
(2) **동시성 16**
운영 SLA(P95 ≤ 100ms)를 만족하는 동시성 중 단가가 가장 낮은 값은 동시성 16(단가 63원, P95 68ms)입니다. 동시성 24 이상에서는 단가가 증가하거나 SLA를 초과합니다.
(3) **2150만 tok**
그림 2의 0~40분 구간을 사다리꼴 근사로 계산하면:
- 0~10분: (0+30)/2 ×10 = 150
- 10~20분: (30+60)/2 ×10 = 450
- 20~30분: (60+80)/2 ×10 = 700
- 30~40분: (80+90)/2 ×10 = 850
총합: 150 + 450 + 700 + 850 = **2150만 tok**
(4) **71원**
각주에 따라 동시성 16의 온디맨드 환산 단가는 스폿 기준 63원에서 71원으로 명시됩니다.
**정답**
(1) \boxed{16, 63원}
(2) \boxed{16}
(3) \boxed{2150}
(4) \boxed{71원}채점 근거4파트 완답: 동시성16/63원(U자·dual-axis 회피) + SLA 필터 16 + 사다리꼴 2,150만(적분) + 온디맨드 71원(각주). 표1 직접노출로 난도 붕괴 = 전원 통과. \boxed 포맷 i 경미. q5 함정실패 후 정량추론은 회복.
Gemma 4 31BGoogle100100100100100100
제시된 분석 보고서의 내용을 바탕으로 답변드립니다.
**(1) 그림 1에서 요청 단가(원/1k req)가 최소가 되는 동시성 설정과 그 단가는?**
* **답변:** 동시성 **16**, 단가 **63원**
* **근거:** 그림 1의 파란색 실선(단가)이 가장 낮은 지점과 표 1의 '단가' 행에서 동시성 16일 때 최솟값인 63원임을 확인할 수 있습니다.
**(2) 운영 SLA(P95 ≤ 100ms)를 지키면서 단가를 최소화하려면 동시성을 얼마로 설정해야 하는가?**
* **답변:** 동시성 **16**
* **근거:** 표 1에서 P95 지연시간이 100ms 이하인 구간은 동시성 2, 4, 8, 16, 24입니다. 이 중 단가(원/1k req)가 가장 낮은 설정은 동시성 16(63원)입니다. (동시성 24는 P95가 95ms로 SLA를 만족하지만 단가는 67원으로 더 높습니다.)
**(3) 그림 2 기준, 부하시험 0~40분 구간에 누적 처리된 토큰량(만 tok)은? (사다리꼴 근사)**
* **계산 과정:** (단위: 만 tok/분, 시간 간격 $\Delta t = 10$분)
* 0~10분: $\frac{0 + 30}{2} \times 10 = 150$
* 10~20분: $\frac{30 + 60}{2} \times 10 = 450$
* 20~30분: $\frac{60 + 80}{2} \times 10 = 700$
* 30~40분: $\frac{80 + 90}{2} \times 10 = 850$
* **총합:** $150 + 450 + 700 + 850 = 2,150$
* **답변:** **2,150만 tok**
**(4) 각주를 반영할 때 동시성 16의 '온디맨드' 환산 단가는?**
* **답변:** **71원**
* **근거:** 하단 각주 1에 "동시성 16의 단가 63원은 스팟 인스턴스 기준이며, 온디맨드 환산 시 71원이 된다"라고 명시되어 있습니다.채점 근거4파트 완답: 동시성16/63원(U자·dual-axis 회피) + SLA 필터 16 + 사다리꼴 2,150만(적분) + 온디맨드 71원(각주). 표1 직접노출로 난도 붕괴 = 전원 통과.
Mistral Small 4Mistral100100100100100100
**(1) 그림 1에서 요청 단가가 최소가 되는 동시성 설정과 그 단가는?** - **동시성 설정**: 16 - **요청 단가**: **63원/1k req** --- **(2) 운영 SLA(P95 ≤ 100ms)를 지키면서 단가를 최소화하려면 동시성을 얼마로 설정해야 하는가?** - **동시성 설정**: **16** - **이유**: 동시성 16에서 P95 지연 시간이 68ms(≦100ms)로 SLA를 만족하면서, 요청 단가(63원)가 최소입니다. --- **(3) 그림 2 기준, 부하시험 0~40분 구간에 누적 처리된 토큰량(만 tok)은? (사다리꼴 근사)** - **누적 처리량**: **2,150만 tok** - **계산 과정**: - 0–10분: (0 + 30) × 10 / 2 = 150 - 10–20분: (30 + 60) × 10 / 2 = 450 - 20–30분: (60 + 80) × 10 / 2 = 700 - 30–40분: (80 + 90) × 10 / 2 = 850 - **합계**: 150 + 450 + 700 + 850 = **2,150만 tok** --- **(4) 각주를 반영할 때 동시성 16의 '온디맨드' 환산 단가는?** - **온디맨드 환산 단가**: **71원/1k req** *(스팟 인스턴스 63원 → 온디맨드 환산 71원)*
채점 근거4파트 완답: 동시성16/63원(U자·dual-axis 회피) + SLA 필터 16 + 사다리꼴 2,150만(적분) + 온디맨드 71원(각주). 표1 직접노출로 난도 붕괴 = 전원 통과.
EXAONE 4.5 33BLG AI100401001009091
The user wants me to answer four specific questions based on the provided document, which is a report on "추론 서빙 동시성 최적화 및 부하 누적 분석" (Inference Serving Concurrency Optimization and Load Accumulation Analysis).
**Question (1): In Figure 1, what is the concurrency setting and the price per unit request (won/1k req) that minimizes the cost?**
* I need to look at "표 1. 동시성별 측정 원재료" (Table 1. Measurement Raw Data by Concurrency) or "그림 1. 동시성별 단가(좌축) · 지연 P95(우축)" (Figure 1. Price per concurrency (left axis) · Delay P95 (right axis)).
* Looking at the table "표 1", the row "단가 (원/1k req)" has values: 142, 98, 71, 63, 67, 88, 134.
* The lowest value is 63.
* Looking across to the "동시성" (Concurrency) column for that value, it corresponds to 16.
* So, the minimum price is 63 won/1k req at concurrency 16.
**Question (2): To minimize price while maintaining the operational SLA (P95 ≤ 100ms), what concurrency should be set?**
* The "요약" (Summary) section states: "지연 P95(그림 1, 우측)는 동시성에 단조 증가한다." (Delay P95 increases monotonically with concurrency).
* It also states: "운영 SLA는 P95 ≤ 100ms다." (Operational SLA is P95 ≤ 100ms).
* Looking at Table 1, the row "지연 P95 (ms)" has values: 40, 45, 52, 68, 95, 140, 210.
* I need P95 <= 100.
* The values are 40, 45, 52, 68, 95. All these are <= 100.
* The next value is 140 which is > 100.
* So valid concurrency levels are 2, 4, 8, 16, 24.
* Among these, I need to minimize the price ("단가 (원/1k req)").
* Prices for these are…채점 근거★content_md 40,036자 폭주 — 초기 정확값 2,150을 버리고 2,000으로 자가수정(허용 1900~2300 내지만 사다리꼴 구간을 '0~15:225,15~20:225'로 붕괴). (1)(2)(4)는 정확. 추론 runaway = i 최악.
시그니처“40K자 추론 폭주 끝에 정답 2,150을 2,000으로 후퇴”
Gemma 4 26B A4BGoogle100100100100100100
제시된 분석 보고서를 바탕으로 질문에 대한 답변을 정리해 드립니다.
**(1) 그림 1에서 요청 단가(원/1k req)가 최소가 되는 동시성 설정과 그 단가는?**
* **답변:** **동시성 16, 단가 63원**
* **근거:** 표 1(표 1. 동시성별 자원표)의 '단가(원/1k req)' 행을 확인하면, 동시성이 16일 때 63원으로 가장 낮은 값을 가집니다.
**(2) 운영 SLA(P95 ≤ 100ms)를 지키면서 단가를 최소화하려면 동시성을 얼마로 설정해야 하는가?**
* **답변:** **동시성 16**
* **근거:**
1. SLA 조건(P95 $\le$ 100ms)을 만족하는 동시성 범위를 표 1에서 찾으면, P95가 95ms인 '동시성 24'까지 가능합니다. (동시성 32부터는 140ms로 SLA 초과)
2. 이 범위(동시성 2, 4, 8, 16, 24) 내에서 단가가 가장 낮은 지점을 찾으면 동시성 16(63원)입니다.
**(3) 그림 2 기준, 부하시험 0~40분 구간에 누적 처리된 토큰량(만 tok)은? (사다리꼴 근사)**
* **답변:** **2,150만 tok**
* **계산 과정 (그래프의 좌표를 육안으로 추정):**
* (0분, 0만) $\rightarrow$ (10분, 30만): $\frac{0+30}{2} \times 10 = 150$
* (10분, 30만) $\rightarrow$ (20분, 60만): $\frac{30+60}{2} \times 10 = 450$
* (20분, 60만) $\rightarrow$ (30분, 80만): $\frac{60+80}{2} \times 10 = 700$
* (30분, 80만) $\rightarrow$ (40분, 90만): $\frac{80+90}{2} \times 10 = 850$
* **합계:** $150 + 450 + 700 + 850 = 2,150$
**(4) 각주를 반영할 때 동시성 16의 '온디맨드' 환산 단가는?**
* **답변:** **71원**
* **근거:** 보고서 하단 각주에 "동시성 16의 단가 스팟 기준이며, 온디맨드 환산 시 71원이다"라고 명시되어 있습니다.채점 근거4파트 완답: 동시성16/63원(U자·dual-axis 회피) + SLA 필터 16 + 사다리꼴 2,150만(적분) + 온디맨드 71원(각주). 표1 직접노출로 난도 붕괴 = 전원 통과.
Gemma 4 12BGoogle507050728063
제공해주신 자료를 바탕으로 분석한 답변입니다.
**(1) 그림 1에서 요청 단가(원/1k req)가 최소가 되는 동시성 설정과 그 단가는?**
* **동시성:** 24
* **단가:** 67원 (표 1 및 그림 1의 파란색 선 확인)
**(2) 운영 SLA(P95 ≤ 100ms)를 지키면서 단가를 최소화하려면 동시성을 얼마로 설정해야 하는가?**
* **동시성:** 16
* **이유:** 표 1을 보면 동시성 16일 때 P95는 68ms로 SLA(100ms 이하)를 만족하며, 단가는 71원입니다. 동시성 24는 단가가 더 낮으나(67원), P95가 95ms로 SLA를 간신히 만족하지만, 동시성 32부터는 P95가 140ms로 SLA를 초과합니다. 따라서 SLA를 준수하면서 단가가 가장 낮은 구간은 16~24 사이이며, 단가 최적화 관점에서는 **24**가 가장 낮으나, 일반적으로 안정적인 운영을 위해 SLA 여유를 고려한다면 16과 24 중 선택하게 됩니다. (단순 수치상 최저 단가는 **24**입니다.)
**(3) 그림 2 기준, 부하시험 0~40분 구간에 누적 처리된 토큰량(만 tok)은? (사다리꼴 근사)**
* **계산 과정:**
* 0분~10분 구간: $\frac{0 + 20}{2} \times 10 = 100$
* 10분~20분 구간: $\frac{20 + 60}{2} \times 10 = 400$
* 20분~30분 구간: $\frac{60 + 80}{2} \times 10 = 700$
* 30분~40분 구간: $\frac{80 + 90}{2} \times 10 = 850$
* **합계:** $100 + 400 + 700 + 850 = 2,050$
* **정답:** 2,050 (만 tok)
**(4) 각주를 반영할 때 동시성 16의 '온디맨드' 환산 단가는?**
* **계산 과정:**
* 표 1에서 동시성 16의 단가는 71원입니다.
* 각주 1에 따르면 '온디맨드' 단가는 '스펨(Spearmint) 기준'이며, '동시성 16의 단가'는 '스펨 기준'과 동일합니다.
* 또한 각주 2에서 '온디맨드 환산 시 1.2배'를 적용한다고 명시되어 있습니다.
* 계산: $71원 \times 1.2 = 85.2원$
* **정답:** 85.2원채점 근거doc6 Lv3+(최적화+적분): (3) 0~40분 사다리꼴 적분 2,050만 tok 정확(허용 1,900~2,300). 단 ★(1) U자 최저점을 동시성 24/67로 오독(gold 16/63) + (2) SLA 필터 reasoning 혼란(헤드라인 16이나 '단순 최저는 24' 자기모순) + ★(4) 각주를 'Spearmint 1.2배'로 날조해 85.2원(gold 71원, 스팟63→온디맨드71). 적분은 강·곡선최저/각주는 약.