Evaluation of Automatic Speech Recognition Using Generative Large Language Models

Source: arXiv:2604.21928v1 Type: arxiv paper (cs.CL) By: Thibault Bañeras-Roux et al. (Idiap Research Institute, Switzerland) Valid as of: 2026-04-23

핵심 Takeaway

WER(Word Error Rate)는 인간 지각과 63%만 일치 (2026-04-23 기준 HATS 데이터셋) — 의미론적으로 무감각한 ASR 평가 지표 (출처: 논문 Table 1)
GPT-4.1, Qwen3.5-35B 기반 LLM-as-Judge가 두 전사 후보 중 최선 선택에서 인간 주석자와 92-94% 일치 — WER(63%)·SemDist(90%) 모두 초과 (출처: 논문 Table 2)
Decoder 기반 LLM 임베딩도 encoder 모델과 비견하는 semantic 표현 품질. Qwen3-Embedding-8B의 mean pooling이 89%로 최상위 (출처: 논문 Table 3)
Last token pooling은 전반적으로 열세 — next-token prediction 학습 목표로 인해 마지막 토큰이 전체 semantic 정보를 보유하지 않음; Mean·2nd-to-last pooling이 우수
모델 크기는 embedding 품질의 결정적 요인이 아님 (Qwen3.5-35B < Qwen3.5-27B); 오픈소스 Qwen3.5-35B는 독점 GPT-4.1과 비견

상세 요약

문제: WER의 한계

ASR 평가의 전통적 지표 WER은 문자·단어 레벨 정확도만 측정하며 의미론적 맥락이 없다. HATS 데이터셋 실험에서 WER의 인간 지각 일치율은 49–63%에 불과하다. CER(77%), BERTScore(80%), SemDist(90%)에도 밀린다. 실제로 ASR 시스템 순위는 어떤 지표를 쓰느냐에 따라 달라진다는 선행 연구도 있다.

접근 1: LLM-as-Judge (두 후보 중 최선 선택)

One-shot 프롬프트로 LLM에게 두 ASR 가설 중 참조문과 더 가까운 것을 선택하게 한다. Chain-of-thought 추론을 활용해 최종 A/B 선택을 추출한다. GPT-4.1과 Qwen3.5-35B가 각각 94%·92%로 인간 주석자와 일치 — 모든 기존 지표를 능가한다. LLM은 비유창성(disfluency) 허용, 문법적 일관성 선호 등 인간적 지각 뉘앙스를 포착한다. 이 접근은 두 ASR 시스템 간 직접 비교에도 활용 가능하다.

접근 2: Decoder LLM 임베딩 기반 SemDist

Decoder LLM에서 임베딩 시퀀스를 추출하고 다양한 pooling으로 고정 차원 벡터를 만든 후, 참조문-가설 간 cosine 유사도를 SemDist로 계산한다. 핵심 발견:

Last token pooling: 가장 열세. Next-token prediction 목표로 학습된 LLM에서 마지막 토큰은 미래 토큰 예측에 최적화되어 전체 의미 정보 부족
Mean pooling: ASR 태스크에서 참조문-가설이 유사한 길이를 가지므로, 의미적으로 유사한 쌍의 임베딩 궤적이 수렴하는 기하학적 특성 덕분에 효과적
임베딩 전용 fine-tuning: Qwen3-Embedding 시리즈가 동급 크기 generic LLM을 일관되게 능가. Fine-tuning 후 last-token도 개선됨 (마지막 토큰이 semantic 표현자로 재조정됨)

접근 3: 오류 질적 분류

LLM이 identical/useful/bad/incomprehensible 4개 클래스로 (참조문, 가설) 쌍을 분류. SemDist 연속 점수와 일관된 방향성을 보여 해석 가능성(interpretability) 높은 평가 방식으로 유망하다.

연결되는 위키 페이지

auto-research — LLM이 평가자 역할을 담당할 때 신뢰성 근거; 이 논문은 LLM이 인간 주석자와 92-94% 일치함을 실증

JYP Garden

탐색기

Evaluation of Automatic Speech Recognition Using Generative Large Language Models

Evaluation of Automatic Speech Recognition Using Generative Large Language Models

핵심 Takeaway

상세 요약

문제: WER의 한계

접근 1: LLM-as-Judge (두 후보 중 최선 선택)

접근 2: Decoder LLM 임베딩 기반 SemDist

접근 3: 오류 질적 분류

연결되는 위키 페이지

그래프 뷰

목차