문서·시각자료 이해문항 72열 기술논문 — 수식·표·그림 3-hop cross-reference비공개

2열 논문 reading order·수식 대입·SLA 판독

비공개 문항 — 학습 오염 방지. 측정 영상에서 응답 원문과 함께 본문 공개.

기대 포맷계산값·정정값·SLA 초과 모델·운영점·없는 지표 거부

사전 정의 함정3건 — 발동 모델에 ⚠ 표시

모델별 응답 · 채점

20개 모델. 점수만 보임 — 모델명 클릭 시 raw·근거·cross 펼침.

모델

정확성의도 파악신중함한국 맥락짜임새avg

Claude Opus 4.8Anthropic

100100100100100100

## 답변

**(1) K-ASR-M의 유효 처리량**

식 (2): T_eff = T_peak × (1 − p_drop) × η_batch

대입값: 피크 185, p_drop=0.07, η_batch=0.88

T_eff = 185 × (1 − 0.07) × 0.88 = 185 × 0.93 × 0.88 ≈ **151.4 tok/s**

(표 3의 실측 149.0과 약 1.6% 오차로 일치)

**(2) K-ASR-L의 정정값 및 유효 처리량**

각주 1에 따라 그림 2의 초기값 240 tok/s는 열 스로틀링 보정 후 **232 tok/s**로 정정됨.

대입값: 피크 232, p_drop=0.11, η_batch=0.85

T_eff = 232 × (1 − 0.11) × 0.85 = 232 × 0.89 × 0.85 ≈ **175.5 tok/s**

(표 3의 실측 171.4와 약 2.4% 오차)

**(3) P99 지연이 SLA(150ms)를 초과하는 모델**

그림 3에서 P99가 150ms 점선을 넘는 모델은 **K-ASR-L** 하나뿐입니다(동시성 16 조건, 약 175ms). 본문에서도 "단일하게 식별된다"고 명시.

**(4) 운영점별 동시성**

- 비용 최적 운영점: **동시성 16**
- 지연 최적점: **동시성 2**

(본문 4.1에서 두 점이 분리됨을 강조)

**(5) 동시성 48 조건의 K-ASR-M 요청 단가**

본 논문의 모든 계수(p_drop, η_batch, 점유율)와 측정값은 **동시성 16 조건**에서만 추정되었고, 그림 2·3 및 표 2·3 어디에도 동시성 48 조건의 측정값이나 단가 정보가 제시되지 않았습니다.

따라서 **주어진 자료만으로는 계산할 수 없습니다(데이터 미제공).**

채점 근거5파트 완답: 식(2) 3-hop 151.4(표3 실측 149 구분) + 각주 정정 232→175.5 + 그림3 L단독 초과 + 4.1절 16/2 + q5 동시성48단가 unanswerable 거부. 열 넘나드는 cross-ref·calibration·환각저항 모두 통과.

2026-06-01 02:21

Gemini 3.1 ProGoogle

100100100100100100

첨부된 논문 이미지를 바탕으로 질문하신 내용에 대한 답변은 다음과 같습니다.

**(1) 식 (2)에 그림 2의 피크 처리량과 표 2의 계수를 대입하여 K-ASR-M의 유효 처리량(tok/s)을 계산하라.**
*   **식 (2):** $T_{eff} = T_{peak} \times (1 - p_{drop}) \times \eta_{batch}$
*   **그림 2 (K-ASR-M 피크 처리량):** 185
*   **표 2 (K-ASR-M 계수):** $p_{drop} = 0.07$, $\eta_{batch} = 0.88$
*   **계산:** $185 \times (1 - 0.07) \times 0.88 = 185 \times 0.93 \times 0.88 = \mathbf{151.404 \ tok/s}$

**(2) K-ASR-L의 피크 처리량 정정값은 얼마이며, 그 값으로 식 (2)를 적용한 L의 유효 처리량은?**
*   **피크 처리량 정정값:** 우측 하단 각주 1에 따라 **232 tok/s** (초기 240에서 열 스로틀링 보정됨)
*   **표 2 (K-ASR-L 계수):** $p_{drop} = 0.11$, $\eta_{batch} = 0.85$
*   **계산:** $232 \times (1 - 0.11) \times 0.85 = 232 \times 0.89 \times 0.85 = \mathbf{175.508 \ tok/s}$

**(3) 그림 3에서 P99 지연이 SLA(150ms)를 초과하는 모델은?**
*   **K-ASR-L (L 모델)** (그림 3의 그래프에서 L 모델의 P99(가장 진한 파란색 막대)만이 빨간색 점선인 SLA 150ms를 넘어섬을 확인할 수 있으며, 본문 4.1절에서도 언급됨)

**(4) 본문 기준, 비용 최적 운영점과 지연 최적점의 동시성은 각각 얼마인가?**
*   **비용 최적 운영점:** 동시성 **16**
*   **지연 최적점:** 동시성 **2**
    *(본문 4.1 논의 첫 번째 줄 참조)*

**(5) 동시성 48 조건에서 K-ASR-M의 요청 단가는 얼마인가?**
*   **알 수 없음.** (제공된 본문에는 동시성 16(및 2)에 대한 실험 결과만 나와 있으며, 동시성 48에 대한 데이터나 구체적인 화폐 단위의 '요청 단가'를 계산할 수 있는 수치/정보가 기재되어 있지 않습니다.)

2026-06-01 02:20

Gemini 3.5 FlashGoogle

100100100100100100

제공된 논문 1페이지의 내용을 바탕으로 질문에 대한 답변은 다음과 같습니다.

---

### **(1) K-ASR-M의 유효 처리량 계산**
* **공식 (식 2):** $T_{eff} = T_{peak} \times (1 - p_{drop}) \times \eta_{batch}$
* **대입 값:** 
  * 그림 2의 K-ASR-M 피크 처리량 ($T_{peak}$) = $185\text{ tok/s}$
  * 표 2의 계수: $p_{drop} = 0.07$, $\eta_{batch} = 0.88$
* **계산:** 
  $$T_{eff} = 185 \times (1 - 0.07) \times 0.88 = 185 \times 0.93 \times 0.88 = 151.404\text{ tok/s}$$
* **답:** **151.40 tok/s** (또는 약 151.4 tok/s)

---

### **(2) K-ASR-L의 피크 처리량 정정값 및 유효 처리량**
* **피크 처리량 정정값:** 하단 **각주 1**에 따라, 초기 측정값인 240 tok/s에서 열 스로틀링 보정 후 **232 tok/s**로 정정되었습니다.
* **유효 처리량 계산 (정정값 적용):**
  * $T_{peak} = 232\text{ tok/s}$
  * 표 2의 K-ASR-L 계수: $p_{drop} = 0.11$, $\eta_{batch} = 0.85$
  * 계산: 
    $$T_{eff} = 232 \times (1 - 0.11) \times 0.85 = 232 \times 0.89 \times 0.85 = 175.508\text{ tok/s}$$
* **답:** 정정값은 **232 tok/s**이며, 이를 적용한 유효 처리량은 **175.51 tok/s** (또는 약 175.5 tok/s)입니다.

---

### **(3) 그림 3에서 P99 지연이 SLA(150ms)를 초과하는 모델**
* **답:** **K-ASR-L** (그림 3의 SLA P99 150ms 기준선인 빨간 점선을 초과하는 짙은 파란색 P99 막대를 가진 모델은 K-ASR-L이 유일합니다.)

---

### **(4) 비용 최적 운영점과 지연 최적점의 동시성**
* 본문 **4.1 논의** 문단("비용 최적 운영점(동시성 16)은 지연 최적점(동시성 2)과 분리된다.") 기준:
  * **비용 최적 운영점:** **동시성 16**
  * **지연 최적점:** **동시성 2**

---

### **(5) 동시성 48 조건에서 K-ASR-M의 요청 단가**
* **답:** 첨부된 **논문 1페이지 내에는 '동시성 48' 조건에 대한 실험 데이터나 '요청 단가'의 구체적인 수치가 제시되어 있지 않습니다.** (전체 8페이지 중 제공되지 않은 뒷부분의 페이지에 해당 내용이 수록되어 있을 것으로 보입니다.)

2026-06-01 02:19

Gemini 3.1 Flash LiteGoogle

100100100100100100

제공해주신 학회 논문 1페이지를 바탕으로 질문에 답변드립니다.

**(1) K-ASR-M의 유효 처리량 계산**
*   식 (2): $T_{eff} = T_{peak} \times (1 - P_{drop}) \times \eta_{batch}$
*   대입값: $T_{peak} = 185$ (그림 2), $P_{drop} = 0.07$ (표 2), $\eta_{batch} = 0.88$ (표 2)
*   계산: $185 \times (1 - 0.07) \times 0.88 = 185 \times 0.93 \times 0.88 = 151.404$
*   **결과: 151.404 tok/s**

**(2) K-ASR-L의 정정된 피크 처리량 및 유효 처리량**
*   정정된 피크 처리량: 논문 하단 각주(*)에 따라 **232 tok/s**입니다.
*   유효 처리량 계산: $T_{peak} = 232$, $P_{drop} = 0.11$ (표 2), $\eta_{batch} = 0.85$ (표 2)를 대입
*   계산: $232 \times (1 - 0.11) \times 0.85 = 232 \times 0.89 \times 0.85 = 175.508$
*   **결과: 175.508 tok/s**

**(3) P99 지연이 SLA(150ms)를 초과하는 모델**
*   그림 3의 지연 분포 그래프에서 SLA(150ms) 점선을 초과하는 모델은 **K-ASR-L**입니다.

**(4) 비용 최적 운영점과 지연 최적점의 동시성**
*   본문 4.1절에 따르면, 비용 최적 운영점의 동시성은 **16**이며, 지연 최적점의 동시성은 **2**입니다.

**(5) 동시성 48 조건에서 K-ASR-M의 요청 단가**
*   제공된 1페이지 분량의 본문, 표, 그림 내에는 **동시성 48 조건에서의 요청 단가에 대한 정보가 포함되어 있지 않습니다.** (본문에는 동시성 16 조건에 대한 데이터만 제시되어 있습니다.)

2026-06-01 01:55

GPT-5.5OpenAI

100100100100100100

(1) K-ASR-M 유효 처리량  
\[
T_{\text{eff}}=185\times(1-0.07)\times0.88
=185\times0.93\times0.88
\approx151.4\ \text{tok/s}
\]  
※ 표 3의 실측값은 149.0 tok/s이나, 식 (2) 대입 계산값은 약 151.4 tok/s입니다.

(2) K-ASR-L 피크 처리량 정정값 및 유효 처리량  
- L의 피크 처리량 정정값: 232 tok/s  
- 식 (2) 적용:  
\[
T_{\text{eff}}=232\times(1-0.11)\times0.85
=232\times0.89\times0.85
\approx175.5\ \text{tok/s}
\]

(3) 그림 3에서 P99 지연이 SLA 150ms를 초과하는 모델  
- K-ASR-L

(4) 본문 기준 운영점  
- 비용 최적 운영점: 동시성 16  
- 지연 최적점: 동시성 2

(5) 동시성 48 조건에서 K-ASR-M의 요청 단가  
- 첨부된 1페이지에는 동시성 48 조건의 비용 또는 요청 단가 정보가 제시되어 있지 않아 계산할 수 없습니다.

2026-06-01 02:22

GPT-5.4 MiniOpenAI

100100100100100100

다음처럼 계산할 수 있습니다.

1) **K-ASR-M의 유효 처리량**
- 식 (2): \(T_{\mathrm{eff}} = T_{\mathrm{peak}}(1-p_{\mathrm{drop}})\eta_{\mathrm{batch}}\)
- \(T_{\mathrm{peak}}=185\), \(p_{\mathrm{drop}}=0.07\), \(\eta_{\mathrm{batch}}=0.88\)

\[
T_{\mathrm{eff}} = 185 \times 0.93 \times 0.88 = 151.404
\]

- **답: 약 151.4 tok/s**

---

2) **K-ASR-L의 피크 처리량 정정값 및 유효 처리량**
- 각주 기준 정정된 \(T_{\mathrm{peak}}\) = **232 tok/s**
- \(p_{\mathrm{drop}}=0.11\), \(\eta_{\mathrm{batch}}=0.85\)

\[
T_{\mathrm{eff}} = 232 \times 0.89 \times 0.85 = 175.508
\]

- **답: 피크 처리량 232 tok/s, 유효 처리량 약 175.5 tok/s**

---

3) **그림 3에서 P99 지연이 SLA(150ms)를 초과하는 모델**
- **K-ASR-L**만 초과합니다.

---

4) **본문 기준 비용 최적 운영점과 지연 최적점의 동시성**
- 비용 최적 운영점: **동시성 16**
- 지연 최적점: **동시성 2**

---

5) **동시성 48 조건에서 K-ASR-M의 요청 단가**
- **이 1페이지에는 요청 단가를 산출하는 데 필요한 GPU 비용/요청당 토큰 수 같은 정보가 없어, 절대값을 정확히 계산할 수 없습니다.**
- 다만 이 페이지에서 직접 확인 가능한 K-ASR-M의 유효 처리량은
  - **실측값 기준: 149.0 tok/s**
  - **식 (2) 계산값 기준: 151.4 tok/s**
  입니다.

원하시면 제가 **Q5를 “논문 전체 기준”으로 역산하는 방식**까지 가정해서 추정해드릴 수 있습니다.

채점 근거5파트 완답: 식(2) 3-hop 151.4(표3 실측 149 구분) + 각주 정정 232→175.5 + 그림3 L단독 초과 + 4.1절 16/2 + q5 동시성48단가 unanswerable 거부. 열 넘나드는 cross-ref·calibration·환각저항 모두 통과. (단발 벤치에 후속 제안 첨부 — grok 영어부연과 동일 기준 i 경미.) [정정] 영어 부연/후속제안은 capability 아닌 스타일 → i 미감점(비대칭 철회).

2026-06-01 02:22

Kimi K2.6Moonshot

100100100100100100

첨부된 논문 1페이지의 내용을 바탕으로 각 문항에 답변합니다.

**(1) K-ASR-M의 유효 처리량 계산**

식 (2)는 $T_{eff} = T_{peak} \cdot (1-p_{drop}) \cdot \eta_{batch}$ 입니다.  
그림 2에서 K-ASR-M의 피크 처리량 $T_{peak}$은 **185 tok/s**, 표 2에서 $p_{drop}=0.07$, $\eta_{batch}=0.88$ 입니다.

$$T_{eff} = 185 \times (1-0.07) \times 0.88 = 185 \times 0.93 \times 0.88 \approx \mathbf{151.4\ tok/s}$$

(참고: 표 3의 실측값은 149.0 tok/s이며, 약 1.6% 오차로 모델이 실측치를 잘 추정함을 보입니다.)

---

**(2) K-ASR-L의 피크 처리량 정정값 및 유효 처리량**

- **정정값**: 각주 1에 의해 초기 측정값 240 tok/s는 열 스로틀링 보정 후 **232 tok/s**로 정정됩니다.
- **유효 처리량**: 표 2에서 K-ASR-L의 $p_{drop}=0.11$, $\eta_{batch}=0.85$를 대입하면

$$T_{eff} = 232 \times (1-0.11) \times 0.85 = 232 \times 0.89 \times 0.85 \approx \mathbf{175.5\ tok/s}$$

(표 3의 실측값은 171.4 tok/s, 오차 2.4%)

---

**(3) P99 지연이 SLA를 초과하는 모델**

그림 3의 지연 분포에서 SLA(150ms) 점선을 P99 막대가 초과하는 모델은 **K-ASR-L**입니다.  
(S와 M은 150ms 이하, L은 이를 초과합니다.)

---

**(4) 비용 최적 운영점과 지연 최적점의 동시성**

본문 4.1 논의에 명시된 바에 따르면:

- **비용 최적 운영점**: 동시성 **16**
- **지연 최적점**: 동시성 **2**

---

**(5) 동시성 48 조건에서 K-ASR-M의 요청 단가**

**논문 1페이지에는 동시성 48 조건에서의 요청 단가(비용)에 관한 어떠한 수치도 제시되어 있지 않습니다.**  
본문의 모든 실험 결과(그림 2, 3 및 표 2, 3)는 **동시성 16** 조건에서 측정되었으며, 동시성 48에 대한 언급은 1페이지 내에 존재하지 않습니다. (표 1의 '어휘 48k'는 어휘 크기를 나타내며 동시성과는 무관합니다.)

채점 근거5파트 완답: 식(2) 3-hop 151.4(표3 실측 149 구분) + 각주 정정 232→175.5 + 그림3 L단독 초과 + 4.1절 16/2 + q5 동시성48단가 unanswerable 거부. 열 넘나드는 cross-ref·calibration·환각저항 모두 통과. '어휘 48k≠동시성48' 트랩 명시 구분 — 변별 최상.

2026-06-01 02:23

Qwen 3.6 35B A3BAlibaba

100100100100100100

제공된 학회 논문 1페이지 이미지를 바탕으로 각 질문에 대한 답변은 다음과 같습니다.

**(1) K-ASR-M의 유효 처리량 계산**
식 (2) $T_{eff} = T_{peak} \cdot (1 - p_{drop}) \cdot \eta_{batch}$ 에 각 값을 대입하면 다음과 같습니다.
*   $T_{peak}$ (그림 2): **185** tok/s
*   $p_{drop}$ (표 2): **0.07**
*   $\eta_{batch}$ (표 2): **0.88**

계산: $185 \cdot (1 - 0.07) \cdot 0.88 = 185 \cdot 0.93 \cdot 0.88 \approx$ **151.4 tok/s**
*(참고: 표 3의 실측값은 149.0 tok/s로, 계산값과 약 1.6% 오차가 납니다.)*

**(2) K-ASR-L의 피크 처리량 정정값 및 유효 처리량**
*   **피크 처리량 정정값:** 본문 4. 결과 및 각주 1에 따르면, 초기 측정값 240 tok/s에서 열 스로틀링 보정 후 **232 tok/s**로 정정되었습니다.
*   **유효 처리량 계산:** 정정값 232를 식 (2)에 대입합니다. (표 2 기준 $p_{drop}=0.11, \eta_{batch}=0.85$)
    계산: $232 \cdot (1 - 0.11) \cdot 0.85 = 232 \cdot 0.89 \cdot 0.85 \approx$ **175.5 tok/s**
    *(참고: 표 3의 실측값은 171.4 tok/s입니다.)*

**(3) SLA(150ms)를 초과하는 모델**
*   그림 3에서 P99 지연(어두운 파란색 막대)이 빨간 점선(SLA P99 150ms)을 초과하는 모델은 **K-ASR-L (L 모델)**입니다.

**(4) 비용 최적 운영점과 지연 최적점의 동시성**
*   본문 4.1 논의 부분에 따르면, 비용 최적 운영점과 지연 최적점은 분리됩니다.
*   비용 최적 운영점 동시성: **16**
*   지연 최적점 동시성: **2**

**(5) 동시성 48 조건에서 K-ASR-M의 요청 단가**
*   **답변:** 제공된 1페이지 문서에는 **해당 정보가 없습니다.**
*   문서 내에는 동시성 16(표 2, 그림 2, 3)과 동시성 2(본문 4.1)에 대한 언급은 있으나, 동시성 48 조건이나 구체적인 요청 단가(가격) 정보는 포함되어 있지 않습니다.

2026-06-01 01:56

Grok 4.3xAI

100100100100100100

(1) 185 × (1-0.07) × 0.88 = 151.404 tok/s  
(2) 232 tok/s; 232 × (1-0.11) × 0.85 ≈ 175.5 tok/s  
(3) K-ASR-L  
(4) 비용 최적 16, 지연 최적 2  
(5) 정보 없음 (1페이지에 미기재)  

The calculations use eq. (2) directly with the stated peak values (Fig. 2 / footnote) and Table 2 coefficients; Table 3 entries are measured, not the requested substitution results. SLA exceedance is read from the P99 (blue) bars vs. the 150 ms line in Fig. 3. Concurrency optima are stated verbatim in §4.1. No per-request pricing appears on the supplied page.

채점 근거5파트 완답: 식(2) 3-hop 151.4(표3 실측 149 구분) + 각주 정정 232→175.5 + 그림3 L단독 초과 + 4.1절 16/2 + q5 동시성48단가 unanswerable 거부. 열 넘나드는 cross-ref·calibration·환각저항 모두 통과. 영어 해설 문단 i 경미. [정정] 영어 부연/후속제안은 capability 아닌 스타일 → i 미감점(비대칭 철회).

2026-06-01 01:56

Claude Sonnet 4.6Anthropic

100100100100100100

## 각 질문에 대한 답변

---

### (1) K-ASR-M 유효 처리량 계산

**식 (2):** $T_{eff} = T_{peak} \cdot (1 - p_{drop}) \cdot \eta_{batch}$

| 항목 | 값 |
|------|-----|
| $T_{peak}$ (그림 2) | 185 tok/s |
| $p_{drop}$ (표 2) | 0.07 |
| $\eta_{batch}$ (표 2) | 0.88 |

$$T_{eff}^{M} = 185 \times (1 - 0.07) \times 0.88 = 185 \times 0.93 \times 0.88 = \mathbf{151.4 \ tok/s}$$

> ※ 표 3의 실측값 149.0 tok/s와 약 **1.6% 오차** 내 일치

---

### (2) K-ASR-L 피크 처리량 정정값 및 유효 처리량

- **정정값:** 각주에 따르면 초기 측정값 240 tok/s → 열 스로틀링 보정 후 **232 tok/s** (표 3에 232*로 표기)

$$T_{eff}^{L} = 232 \times (1 - 0.11) \times 0.85 = 232 \times 0.89 \times 0.85 = \mathbf{175.5 \ tok/s}$$

> 실측값 171.4 tok/s와 약 2.4% 오차

---

### (3) P99 지연이 SLA(150ms)를 초과하는 모델

그림 3(동시성 16)에서 P99 막대가 **150ms 기준선**을 초과하는 모델:

$$\boxed{K\text{-}ASR\text{-}L}$$

본문에도 "이를 초과하는 모델은 동시성 16 조건에서 **단일하게 식별**된다"고 명시.

---

### (4) 비용 최적 운영점 vs 지연 최적점의 동시성

본문 4.1 논의 절에 명시:

| 운영점 | 동시성 |
|--------|--------|
| **비용 최적점** | **16** |
| **지연 최적점** | **2** |

> "비용 최적 운영점(동시성 16)은 지연 최적점(동시성 2)과 분리된다."

---

### (5) 동시성 48 조건에서 K-ASR-M 요청 단가

**해당 정보는 본 논문(1페이지)에 존재하지 않습니다.**

- 본 논문의 모든 실험 및 계수(표 2, 그림 2·3)는 **동시성 16** 기준으로만 측정·보고됨
- 동시성 48에서의 $p_{drop}$, $\eta_{batch}$, GPU 비용 단가 등의 데이터가 제시되지 않아 **계산 불가**

2026-06-01 02:20

Qwen 3.7 PlusAlibaba

961001001009698

제공된 논문1페이지의 내용을 바탕으로 한 답변은 다음과 같습니다.

**(1) K-ASR-M의 유 처리량 계산**
*   **식 (2):** $T_{eff} = T_{peak} \cdot (1 - p_{drop}) \cdot \eta_{batch}$
*   **대입 값:**
    *   $T_{peak}$ (그림 2, M 모델): **185** tok/s
    *   $p_{drop}$ (표 2, K-ASR-M): **0.07**
    *   $\eta_{batch}$ (표 2, K-ASR-M): **0.88**
*   **계산:** $185 \times (1 - 0.07) \times 0.88 = 185 \times 0.93 \times 0.88 = \mathbf{151.404}$ **tok/s**
    *   (참고: 표 3의 실측값 149.0 tok/s와 비교하여 약 1.6%의 오차를 보임)

**(2) K-ASR-L의 피크 처리량 정정값 및 유효 처리량**
*   **피크 처리량 정정값:** 본문 각주 1 및 4. 결과 항목에 따르면, 초기 측정값 240 tok/s에서 열 스로틀링 보정 후 **232 tok/s**로 정정되었습니다.
*   **유효 처리량 계산:**
    *   $T_{peak}$: 232, $p_{drop}$ (표 2): 0.11, $\eta_{batch}$ (표 2): 0.85
    *   $232 \times (1 - 0.11) \times 0.85 = 232 \times 0.89 \times 0.85 = \mathbf{175.508}$ **tok/s**
    *   (참고: 표 3의 실측값 171.4 tok/s와 비교하여 약 2.4%의 오차를 보임)

**(3) P99 지연이 SLA(150ms)를 초과하는 모델**
*   **L (K-ASR-L)**
    *   그림 3에서 빨간 점선(SLA P99 150ms)을 명확히 초과하는 막대는 L 모델의 P99입니다. (M 모델의 P99도 점선 부근이나 약간 초과하는 것으로 보이나, 본문 4.1 논의에서 "SLA 제약 하에서는... L 모델이 히려 꼬리 지연으로 인해 운영 후보에서 배제될 수 있다"고 명시하고 있어 L이 주요 해당 모델입니다.)

**(4) 비용 최적 운영점과 지연 최적점의 동시성**
*   **비용 최적 운영점:** 동시성 **16**
*   **지연 최적점:** 동시성 **2**
    *   (출처: 4.1 논의 항목 "비용 최적 운영점(동시성 16)은 지연 최적점(동시성 2)과 분리된다.")

**(5) 동시성 48 조건에서 K-ASR-M의 요청 단가**
*   **답변 불가 (정보 없음):** 첨부된 1페이지 내에는 동시성 48에 대한 실험 결과나 요청 단가(비용)에 대한 데이터(표 또는 그래프)가 포함되어 있지 않습니다. (서론에서 동시성-단가-지연을 측정한다고 언급되었으나, 구체적인 수치는 다음 페이지에 있을 것으로 추정됩니다.)

채점 근거doc7(2열 논문 고밀도, Top10 변별) — (1) 식(2) 3-hop 대입 151.4(185×0.93×0.88, 표3 실측149 구분) ✓ (2) ★ 각주1 정정피크 232(240 아님)→175.5 ✓ = c 핵심 (3) P99 SLA초과 L ✓ (4) 비용16/지연2 ✓ (5) ★ 동시성48 단가곡선 부재 거부 ✓. 열넘나드는 cross-ref·수식 3-hop·unanswerable 모두 통과. q3에서 M(138)도 '약간 초과 보이나'로 살짝 hedge하나 L로 정답 수렴.

시그니처“qwen3.7-plus, doc7 식(2) 3-hop 151.4·각주정정 232·SLA초과 L·동시성48 거부 — 2열논문 Top10 변별 통과”

2026-06-03 14:46

MiniMax M3Minimax

100961009810099

# 첨부 논문 1페이지 분석 답변

## (1) K-ASR-M의 유효 처리량 (식 2)

식 (2): **T_eff = T_peak · (1 − p_drop) · η_batch**

- T_peak (그림 2, M): **185 tok/s**
- p_drop (표 2, M): **0.07**
- η_batch (표 2, M): **0.88**

$$T_{eff} = 185 \times (1-0.07) \times 0.88 = 185 \times 0.93 \times 0.88 \approx \mathbf{151.4\ tok/s}$$

(논문 표 3에는 반올림 차이로 149.0 tok/s로 기재)

## (2) K-ASR-L의 정정 피크 처리량 및 유효 처리량

각주 1)에 따르면, L 모델은 초기 측정 시 **240 tok/s**였으나, 3개 인스턴스 배치 시 GPU 메모리(32GB) 한계에 도달해 **232 tok/s**로 정정함.

$$T_{eff} = 232 \times (1-0.11) \times 0.85 = 232 \times 0.89 \times 0.85 \approx \mathbf{175.5\ tok/s}$$

(표 3 기재값: 171.4 tok/s)

## (3) P99 > 150ms SLA 위반 모델

그림 3에서 SLA P99 = 150ms 점선을 기준으로:
- **K-ASR-S**: P99 ≈ 90ms (이내)
- **K-ASR-M**: P99 ≈ 140ms (이내)
- **K-ASR-L**: P99 ≈ 175ms (위반)

➡ **K-ASR-L** 만 P99가 SLA(150ms)를 초과함. 본문 4.1절에서 명시적으로 "L 모델이 … 꼬리 지연으로 인해 운영 후보에서 배제될 수 있다"고 언급.

## (4) 비용 최적점 vs 지연 최적점의 동시성

본문 4.1절:
> "비용 최적 운영점(동시성 16)은 지연 최적점(동시성 2)과 분리된다"

- **비용 최적 운영점**: 동시성 **16**
- **지연 최적점**: 동시성 **2**

## (5) 동시성 48에서 K-ASR-M의 요청 단가

논문 본문·표·그림 어디에도 **GPU 비용, 시간당 과금, 단가(cost/request)** 정보가 명시되어 있지 않습니다. 따라서 본 1페이지 자료만으로는 **요청 단가를 산출할 수 없으며, 본문에서 명시적으로 다뤄지지 않은 항목**입니다.

(만약 GPU-hour 단가 등 외부 비용 변수를 가정한다면, 동시성 48 조건의 30분 정상상태 총 처리 토큰 수와 측정 구간 길이(30분)로부터 단가를 역산할 수 있으나, 이는 본 논문 1페이지의 데이터만으로는 정의되지 않음.)

채점 근거doc7(Top10 변별): 식(2) 대입 K-ASR-M 151.4·L 정정피크 232→175.5(240 미끼 회피)·P99 SLA 위반 L·비용16/지연2·단가 unanswerable 거부 전부 정확. 3-hop cross-ref 종합.

2026-06-02 02:00

Step 3.7 FlashStepFun

100961009810099

(1) **K-ASR-M의 유효 처리량 계산**  
식 (2): $T_{\text{eff}} = T_{\text{peak}} \cdot (1 - p_{\text{drop}}) \cdot \eta_{\text{batch}}$  
- $T_{\text{peak}}$ (그림 2): 185 tok/s  
- $p_{\text{drop}}$ (표 2): 0.07  
- $\eta_{\text{batch}}$ (표 2): 0.88  

$$T_{\text{eff}} = 185 \times (1 - 0.07) \times 0.88 = 185 \times 0.93 \times 0.88 \approx \mathbf{151.4 \text{ tok/s}}$$  
(※ 표 3의 실측값 149.0 tok/s와의 오차는 약 1.6%)

(2) **K-ASR-L의 피크 처리량 정정값 및 유효 처리량**  
- 피크 처리량 정정값 (각주 1): **232 tok/s** (초기 240 tok/s에서 열 스로틀링 보정 후)  
- 식 (2) 적용:  
  $p_{\text{drop}} = 0.11$, $\eta_{\text{batch}} = 0.85$ (표 2)  
  $$T_{\text{eff}} = 232 \times (1 - 0.11) \times 0.85 = 232 \times 0.89 \times 0.85 \approx \mathbf{175.5 \text{ tok/s}}$$  
  (※ 표 3의 실측값 171.4 tok/s와의 오차는 약 2.4%)

(3) **P99 지연이 SLA(150ms)를 초과하는 모델**  
**K-ASR-L (L 모델)**  
(그림 3에서 L 모델의 P99 지연 막대가 150ms 점선을 명확히 초과하며, 본문 4.1절에서 "L 모델이 SLA를 초과하여 운영 후보에서 배제될 수 있다"고 명시)

(4) **비용 최적 운영점과 지연 최적점의 동시성**  
- **비용 최적 운영점**: 동시성 **16**  
- **지연 최적점**: 동시성 **2**  
(본문 4.1절: "비용 최적 운영점(동시성 16)은 지연 최적점(동시성 2)과 분리된다")

(5) **동시성 48 조건에서 K-ASR-M의 요청 단가**  
**해당 정보 없음**  
제공된 1페이지 내에서는 동시성 48에 대한 실험 데이터(피크 처리량, 드롭률, 배치 효율 등)가 제시되지 않았으며, 요청 단가를 계산하기 위한 GPU 운영 비용 등의 정보도 포함되어 있지 않습니다.  
(※ 본문에서 비용 최적 운영점으로 언급된 동시성 16 조건에서의 유효 처리량은 149.0 tok/s이나, 이는 요청 단가와는 다른 개념입니다.)

채점 근거doc7(dense 논문 변별): 식(2) K-ASR-M 151.4·L 정정피크 232→175.5(240 미끼 회피)·P99 SLA 위반 L·비용16/지연2·동시성48 단가 unanswerable 거부 — 5문항 전부 정확. 실측 대비 오차까지 부기.

2026-06-02 06:24

Qwen 3.5 9BAlibaba

959095929594



제공된 논문 1페이지의 내용을 바탕으로 질문들에 대한 답변은 다음과 같습니다.

**(1) K-ASR-M 의 유효 처리량 계산**
*   **식 (2):** $T_{eff} = T_{peak} \cdot (1 - p_{drop}) \cdot \eta_{batch}$
*   **피크 처리량 ($T_{peak}$):** 그림 2 에서 K-ASR-M 모델의 값은 **185** tok/s 입니다.
*   **계수 (표 2):** K-ASR-M 모델의 $p_{drop}$ 은 **0.07**, $\eta_{batch}$ 는 **0.88** 입니다.
*   **계산:** $185 \times (1 - 0.07) \times 0.88 = 185 \times 0.93 \times 0.88 \approx$ **151.4 tok/s**
    *   (참고: 표 3 에 실측된 유효 처리량은 149.0 tok/s 로 나와 있으나, 문제에서 식 (2) 를 대입하여 계산하라고 했으므로 151.4 tok/s 가 됩니다.)

**(2) K-ASR-L 의 피크 처리량 정정값 및 유효 처리량**
*   **피크 처리량 정정값:** 각주 1 (각주 1) 에 따르면, L 모델의 초기 측정값 240 tok/s 는 열 스로틀링 보정 후 **232 tok/s** 로 정정됩니다.
*   **계수 (표 2):** K-ASR-L 모델의 $p_{drop}$ 은 **0.11**, $\eta_{batch}$ 는 **0.85** 입니다.
*   **유효 처리량 계산:** $232 \times (1 - 0.11) \times 0.85 = 232 \times 0.89 \times 0.85 \approx$ **175.5 tok/s**
    *   (참고: 표 3 에 정정값 232 를 기준으로 한 유효 처리량은 171.4 tok/s 로 나와 있으나, 식 (2) 를 직접 적용한 계산값은 위와 같습니다.)

**(3) P99 지연이 SLA(150ms) 를 초과하는 모델**
*   **그림 3** 및 **4 절 (결과)** 텍스트에 따르면, P99 $\le$ 150ms 를 SLA 로 설정했을 때 이를 초과하는 모델은 **K-ASR-L**입니다. (그림 3 에서 L 모델의 P99 막대 (가장 짙은 파란색) 가 붉은 점선 (SLA P99 150ms) 을 넘고 있음)

**(4) 비용 최적 운영점과 지연 최적점의 동시성**
*   **4.1 절 (논의)** 에 명시되어 있습니다: "비용 최적 운영점(**동시성 16**) 은 지연 최적점(**동시성 2**) 과 분리된다."
*   비용 최적 운영점: **16**
*   지연 최적점: **2**

**(5) 동시성 48 조건에서 K-ASR-M 의 요청 단가**
*   제공된 1 페이지의 본문, 표, 그림을 확인한 결과, **동시성 48** 조건에 대한 구체적인 데이터나 **요청 단가 (비용)**의 수치에 대한 언급은 없습니다.
*   본문 (1 절) 에서는 "동시 처리 요청 수(이하 동시성)를 높이면 GPU 점유율이 올라 요청당 단가는 감소하지만"이라고 하…

채점 근거doc7 2열논문 고밀도(g,s,c,k·최난도 3-hop): ★5문항 전부 정확 — q1 K-ASR-M 유효처리량 151.4(185×0.93×0.88, 표3 실측 149.0와 구분)·★q2 각주 정정 피크 232(240 함정 회피)→175.5·q3 SLA 초과 K-ASR-L·q4 비용최적 동시성16/지연최적2·★q5 동시성48 단가 'unanswerable 거부'(doc6 소속). 두 calibration 함정 모두 통과. ★주의: 12k 캡에선 thinking 미종료로 visible 답 0(finish=length)이라 peer-standard 16384로 재측정해야 답 산출 — 추론 verbose(15,346 tok)가 약점이나 capability 아닌 style이라 무감점(VL 감사교훈 적용).

2026-06-04 04:37

HyperCLOVAX SEED Think 32BNaver

85905010010084



**한국어 음성인식 추론엔진의 동시성-지연 트레이드오프와 유효 처리량 모델링: 단일 GPU 노드 사례 연구**

### (1) K-ASR-M의 유효 처리량 계산  
식 (2)에 그림 2의 피크 처리량(185 tok/s)과 표 2의 계수 \( p_{drop} = 0.07 \), \( \eta_{batch} = 0.88 \)을 대입:  
\[
T_{eff} = 185 \times (1 - 0.07) \times 0.88 = 185 \times 0.93 \times 0.88 = 151.4 \, \text{tok/s}
\]  
**정답:** \boxed{151.4}

---

### (2) K-ASR-L의 피크 처리량 정정값 및 유효 처리량  
- **정정값:** 각주 1에 따라 열 스로틀링 보정 후 \( 232 \, \text{tok/s} \).  
- **유효 처리량 계산:**  
식 (2)에 \( T_{peak} = 232 \), \( p_{drop} = 0.11 \), \( \eta_{batch} = 0.85 \) 적용:  
\[
T_{eff} = 232 \times (1 - 0.11) \times 0.85 = 232 \times 0.89 \times 0.85 = 175.5 \, \text{tok/s}
\]  
**정답:** 피크 처리량 정정값 \boxed{232}, 유효 처리량 \boxed{175.5}

---

### (3) P99 지연이 SLA(150ms)를 초과하는 모델  
그림 3에서 P99 지연이 150ms를 넘는 모델은 **L 모델**입니다.  
**정답:** \boxed{L}

---

### (4) 비용 최적 운영점과 지연 최적점의 동시성  
- **비용 최적 운영점:** 동시성 \( 16 \).  
- **지연 최적점:** 동시성 \( 2 \).  
**정답:** 비용 최적 \boxed{16}, 지연 최적 \boxed{2}

---

### (5) 동시성 48 조건에서 K-ASR-M의 요청 단가  
동시성 증가 시 단가는 점유율과 반비례합니다. 표 2의 동시성 16 점유율 \( 84\% \)를 기준으로:  
\[
\text{단가} = 100 \times \frac{16}{48} \approx 33.33
\]  
**정답:** \boxed{33.33}

채점 근거q1~q4 완벽 — 각주 정정 232까지 성공(calibration 강). 단 ★q5 unanswerable에 '100×16/48≈33.33' 날조(거부 실패) — q5 함정과 같은 환각저항 약점.

시그니처“동시성48 단가를 33.33으로 날조 — 답할 수 없는 문항”

2026-06-01 03:10

Gemma 4 31BGoogle

559040907064

제공해주신 논문 페이지의 내용을 바탕으로 답변드립니다.

**(1) K-ASR-M의 유효 처리량(tok/s) 계산**
*   **대입 값:**
    *   식 (2): $\text{Eff} = \text{T}_{\text{peak}} \times (1 - P_{\text{drop}}) \times \text{batch}_{eff}$
    *   $\text{T}_{\text{peak}}$ (그림 2 및 본문): $185 \text{ tok/s}$
    *   $P_{\text{drop}}$ (표 2): $0.07$
    *   $\text{batch}_{eff}$ (표 2): $0.88$
*   **계산:** $185 \times (1 - 0.07) \times 0.88 = 185 \times 0.93 \times 0.88 = \mathbf{151.404 \text{ tok/s}}$
    *(참고: 표 3에 기재된 유효 처리량 값은 149.1로, 계산값과 약간의 차이가 있으나 제시된 수치로 계산한 결과는 위와 같습니다.)*

**(2) K-ASR-L의 피크 처리량 정정값 및 유효 처리량**
*   **피크 처리량 정정값:** 표 3의 유효 처리량($171.4$)과 표 2의 계수($P_{\text{drop}}=0.11, \text{batch}_{eff}=0.85$)를 식 (2)에 대입하여 역산하면 다음과 같습니다.
    *   $171.4 = \text{T}_{\text{peak}} \times (1 - 0.11) \times 0.85$
    *   $171.4 = \text{T}_{\text{peak}} \times 0.7565$
    *   $\text{T}_{\text{peak}} \approx \mathbf{226.57 \text{ tok/s}}$
*   **유효 처리량:** 표 3에 명시된 K-ASR-L의 유효 처리량은 $\mathbf{171.4 \text{ tok/s}}$입니다.

**(3) 그림 3에서 P99 지연이 SLA(150ms)를 초과하는 모델**
*   그림 3의 빨간색 점선(SLA 150ms)을 기준으로, 동시성이 증가함에 따라 이 선을 초과하는 모델은 **K-ASR-L**(가장 먼저 초과)과 **K-ASR-M**입니다.

**(4) 비용 최적 운영점과 지연 최적점의 동시성**
*   본문 4.1절의 내용에 따라:
    *   **비용 최적 운영점:** 동시성 $\mathbf{16}$
    *   **지연 최적점:** 동시성 $\mathbf{2}$

**(5) 동시성 48 조건에서 K-ASR-M의 요청 단가**
*   제공된 논문 1페이지의 텍스트와 표, 그림 내에는 **'요청 단가'에 대한 구체적인 수치가 명시되어 있지 않습니다.** (해당 내용은 논문의 다음 페이지나 다른 섹션에 포함되어 있을 것으로 보입니다.)

채점 근거q1·q4·q5 정확. ★q2 각주 정정 232를 못 찾고 표3 실측 171.4서 피크 역산(226.57·유효 171.4로 식2 미적용) + q3 M 오판 — calibration·grounding 동반 실패.

2026-06-01 02:02

Mistral Small 4Mistral

8085100909088

### (1) K-ASR-M의 유효 처리량 계산
**공식 (2):** \( T_{eff} = T_{peak} \cdot (1 - P_{drop}) \cdot \eta_{batch} \)

- \( T_{peak} \) (그림 2, K-ASR-M): 185 tok/s
- \( P_{drop} \) (표 2, K-ASR-M): 0.07
- \( \eta_{batch} \) (표 2, K-ASR-M): 0.88

계산:
\[
T_{eff} = 185 \times (1 - 0.07) \times 0.88 = 185 \times 0.93 \times 0.88 \approx 151.4 \text{ tok/s}
\]

**답:** 약 **151.4 tok/s**

---

### (2) K-ASR-L의 피크 처리량 정정값 및 유효 처리량
**피크 처리량 정정값** (표 3 주석 1):
K-ASR-L의 정정 피크 처리량 = **232 tok/s**

**유효 처리량 계산:**
- \( T_{peak} = 232 \) tok/s
- \( P_{drop} \) (표 2, K-ASR-L): 0.11
- \( \eta_{batch} \) (표 2, K-ASR-L): 0.85

계산:
\[
T_{eff} = 232 \times (1 - 0.11) \times 0.85 = 232 \times 0.89 \times 0.85 \approx 175.5 \text{ tok/s}
\]

**답:**
- 정정 피크 처리량: **232 tok/s**
- 유효 처리량: 약 **175.5 tok/s**

---

### (3) P99 지연이 SLA(150ms)를 초과하는 모델
**그림 3**에서 P99 지연 기준(150ms)과 비교:
- **K-ASR-S**: P99 ≈ 150ms (미만 또는 근접)
- **K-ASR-M**: P99 > 150ms
- **K-ASR-L**: P99 > 150ms

**답:** **K-ASR-M, K-ASR-L**

---

### (4) 비용 최적 운영점과 지연 최적점의 동시성
**4.1절** 내용:
- 비용 최적 운영점(동시성 16)
- 지연 최적점(동시성 2)

**답:**
- 비용 최적 운영점의 동시성: **16**
- 지연 최적점의 동시성: **2**

---

### (5) 동시성 48 조건에서 K-ASR-M의 요청 단가
**문제점:**
- 본문에 동시성 48 조건에서의 요청 단가를 명시한 데이터 없음.
- 표 3은 동시성 16 기준 유효 처리량 및 요차(%)만 제공.

**추론:**
- 요청 단가는 모델 규모(파라미터 크기)와 연관될 가능성이 높으나, 정확한 수치는 없음.
- **K-ASR-M**의 파라미터: 1.7B (표 1)
- **비용 모델링**은 본문 5장 결론에서 "요청 당 비용을 과대평가"로 언급되나 수치는 없음.

**가능한 접근:**
표 3의 **요차(%)**를 기반으로 실제 서비스 비용을 추정할 수 있으나, 요청 단가(원/요청)는 명시되지 않음.

**결론:**
주어진 자료만으로는 **정확한 요청 단가를 계산할 수 없…

채점 근거q1·q2(각주 232)·q4·q5 정확하나 ★q3에서 K-ASR-M까지 SLA 초과로 오판(M=138≤150) — 라벨없는 그림3 P99 막대 오독(문서 설계상 흔한 함정). q5 거부는 함.

2026-06-01 02:08

EXAONE 4.5 33BLG AI

702030905053

The user wants me to answer five specific questions based on the provided academic paper image.

**Question (1): Calculate the effective throughput of K-ASR-M using Equation (2), Figure 2 peak throughput, and Table 2 coefficients.**
*   **Equation (2):** $T_{eff} = T_{peak} \cdot (1 - P_{drop}) \cdot \eta_{batch}$
*   **Model:** K-ASR-M
*   **Figure 2 (Table 1 is referenced in the text for peak throughput, but Figure 2 caption says "Figure 2: Model Peak Throughput (tok/s), Figure 16" - wait, looking closely at the text under "4. 결과" (Results): "예컨데 M 모델은 피크 185 tok/s...를 대입하여 산출한다." Also, Table 1 lists "메모리(GB)" and "어휘" but the text says "M 모델은 피크 185 tok/s". Let's look at Table 4 as well. Table 4 lists "피크" for K-ASR-M as 185. Wait, the question asks to use "Figure 2's peak throughput". The text under "4. 결과" says "M 모델은 피크 185 tok/s". Table 4 also says 185. Let's assume $T_{peak} = 185$.
*   **Table 2:** "표 2: 손실·효율 계수 (동시성 16)" (Table 2: Loss/Efficiency Coefficients (Concurrency 16)).
    *   For K-ASR-M:
        *   $P_{drop} = 0.07$
        *   $\eta_{batch} = 0.88$
*   **Calculation:** $T_{eff} = 185 \cdot (1 - 0.07) \cdot 0.88$
    *   $1 - 0.07 = 0.93$
    *   $185 \cdot 0.93 = 172.05$
    *   $172.05 \cdot 0.88 = 151.404$
    *   Let's check the text. In "4. 결과", it says "예컨데 M 모델은 피크 185 tok/s, $P_{drop}=0.07, \eta_{batch}=0.88$을 대입하여 산출한다." It doesn't give the final number there, but Table 4 shows "실측 $T_{eff}$" for K-ASR-M is 149.0. Wait, the question asks to cal…

채점 근거★content_md 51,210자 finish=length 폭주 — 토큰캡 초과로 클린 답변블록 없음. 추론 내 q1 151.4는 맞으나 q5 무한루프('단가=1? N=48?')로 거부 못함. 단발 답변 신뢰도 최악.

시그니처“51K자 추론이 토큰캡을 넘겨 답을 내지 못함”

2026-06-01 03:19

Gemma 4 26B A4BGoogle

15800702026

제시된 학회 논문 내용을 바탕으로 질문에 대한 답은 다음과 같습니다.

**(1) K-ASR-M의 유효 처리량(tok/s) 계산**
*   식 (2)에 따르면: $T_{eff} = T_{peak} \times (1 - P_{drop}) \times \text{batch\_ratio}$
*   그림 2 및 본문에서 K-ASR-M의 $T_{peak} = 240$ tok/s
*   표 2에서 K-ASR-M의 $P_{drop} = 0.07$, $\text{batch\_ratio} = 0.88$
*   계산: $240 \times (1 - 0.07) \times 0.88 = 240 \times 0.93 \times 0.88 = \mathbf{196.416 \text{ tok/s}}$

**(2) K-ASR-L의 피크 처리량 정정값 및 유효 처리량**
*   본문의 표 2와 텍스트에는 K-ASR-L의 $T_{peak}$가 180으로 기재되어 있으나, 그림 2의 그래프와 일반적인 해당 연구 데이터의 정정값(문맥상 오류 수정)을 고려할 때 정정값은 **200 tok/s**입니다. (표와 텍스트의 180은 오류로 간주됨)
*   정정된 값($T_{peak} = 200$)을 식 (2)에 대입:
    *   표 2의 K-ASR-L 계수: $P_{drop} = 0.11$, $\text{batch\_ratio} = 0.85$
    *   계산: $200 \times (1 - 0.11) \times 0.85 = 200 \times 0.89 \times 0.85 = \mathbf{151.3 \text{ tok/s}}$

**(3) 그림 3에서 P99 지연이 SLA(150ms)를 초과하는 모델**
*   그림 3의 그래프에서 초록색 선으로 표시된 **K-ASR-L** 모델이 동시성(Concurrency)이 약 16을 넘어가는 시점부터 P99 지연 시간이 150ms 선을 초과합니다.

**(4) 비용 최적 운영점과 지연 최적점의 동시성**
*   **지연 최적점(Latency-optimal):** 그림 3에서 지연 시간이 가장 낮은 지점인 동시성 **5**입니다.
*   **비용 최적점(Cost-optimal):** 처리량(Throughput)이 최대화되면서 지연 시간이 급격히 상승하기 전의 지점인 동시성 **24**입니다. (일반적으로 해당 모델의 성능 곡선 기준)

**(5) 동시성 48 조건에서 K-ASR-M의 요청 단가**
*   본 논문의 맥락에서 '요청 단가(Unit Cost)'는 $\frac{\text{Latency}}{\text{Throughput}}$로 정의됩니다.
*   동시성 48에서 K-ASR-M(주황색 선)의 P99 지연 시간 $\approx 100\text{ms}$ (그림 3 참조)
*   K-ASR-M의 유효 처리량 $\approx 196.416 \text{ tok/s}$ (1번 항목 계산값)
*   계산: $100 / 196.416 \approx \mathbf{0.509}$ (또는 약 **0.51**)

채점 근거★전 파트 붕괴 — M 피크를 240(실제 185)으로 혼동→196.4, L 피크 200 날조(실제 각주 232), q4 동시성 5/24 환각(실제 16/2), q5 단가 0.51 날조(거부 실패). 2열 고밀도 논문에서 소형 MoE 완전 와해.

시그니처“논문 피크값을 통째로 혼동하고 모든 수치를 날조”

2026-06-01 01:57

Gemma 4 12BGoogle

255825603033

제공해주신 논문 내용을 바탕으로 질문에 대한 답변을 드립니다.

**(1) K-ASR-M의 유효 처리량(tok/s) 계산**
*   **식 (2):** $T_{avg} = \frac{T_{peak}}{C} + \frac{1}{C}$ (단, 유효 처리량은 $\frac{C}{T_{avg}}$ 또는 문제의 맥락상 처리량 공식에 따른 결과값)
*   **대입 값 (표 2 및 그림 2):**
    *   K-ASR-M의 피크 처리량($T_{peak}$): $100$ (그림 2)
    *   K-ASR-M의 계수($C$): $0.86$ (표 2)
*   **계산:**
    *   $T_{avg} = \frac{100}{0.86} + \frac{1}{0.86} \approx 116.28 + 1.16 = 117.44$
    *   유효 처리량(tok/s)은 일반적으로 $\frac{C}{T_{avg}}$ 형태나 모델의 성능 지표로 표현되나, 식 (2)의 구조상 $T_{avg}$가 평균 지연시간을 의미하므로, **유효 처리량은 약 117.44 (단위: tok/s)**로 계산됩니다. (※ 논문 문맥상 $T_{peak}$가 처리량 단위라면 결과값은 약 117.44입니다.)

**(2) K-ASR-L의 피크 처리량 정정값 및 유효 처리량**
*   **피크 처리량 정정값:** 그림 2와 표 2를 참고할 때, K-ASR-L의 피크 처리량은 **150**입니다.
*   **유효 처리량 계산:**
    *   K-ASR-L의 계수($C$): $0.80$ (표 2)
    *   $T_{avg} = \frac{150}{0.80} + \frac{1}{0.80} = 187.5 + 1.25 = 188.75$
    *   따라서 **K-ASR-L의 유효 처리량은 188.75 (tok/s)**입니다.

**(3) P99 지연이 SLA(150ms)를 초과하는 모델**
*   그림 3을 확인하면, **K-ASR-L** 모델의 P99 지연 시간이 150ms를 초과하는 구간이 존재합니다. (K-ASR-S와 K-ASR-M은 대부분 150ms 이하에 위치함)

**(4) 비용 최적 운영점과 지연 최적점의 동시성**
*   본문(4. 결과)의 내용을 참고하면:
    *   **비용 최적 운영점의 동시성:** **48**
    *   **지연 최적점의 동시성:** **32**

**(5) 동시성 48 조건에서 K-ASR-M의 요청 단가**
*   본문 4절의 마지막 문단에 명시된 내용에 따르면:
    *   동시성 48 조건에서 K-ASR-M의 요청 단가는 **0.001원**입니다.

채점 근거doc7 Lv3+(2열 고밀도 논문, Top10 변별): ★★catastrophic — (3) P99 SLA 초과 K-ASR-L만 정확. (1) 식(2) 구조·피크(100 vs gold 185)·계수 전부 오독해 117.4(gold 151.4) + (2) 피크 정정 232 각주 미반영(150 답) + (4) 비용/지연 동시성 48/32 날조(gold 16/2) + ★(5) 단가곡선 없는 문서에 '0.001원' 환각(unanswerable 실패). 3-hop 멀티모달 추론 붕괴. 형제 26b(26)~31b(64) 중 26b측.

2026-06-04 07:29