
NVIDIA 연구팀이 대규모 언어모델의 추론 속도를 기존 대비 최대 6배 가량 향상시킬 수 있는 혁신적인 하이브리드 아키텍처 'TiDAR(Think in Diffusion, Talk in Autoregression)'를 개발했다고 2025년 11월 13일 발표했다. 이번 연구는 시카고 대학교 및 조지아 공과대학교와 공동으로 진행됐으며, 언어모델 추론 가속화 분야의 새로운 이정표가 될 것으로 전망된다.
TiDAR의 핵심 설계 철학은 현대 GPU의 '빈 토큰 슬롯(free token slots)'을 최대한 활용하는 것이다. 연구팀의 벤치마크 결과에 따르면, NVIDIA H100 GPU에서 특정 수준까지 토큰 수를 늘려도 지연시간이 거의 증가하지 않는 메모리 바운드 구간이 존재한다. TiDAR는 이 구간을 활용해 추가 계산 비용 없이 병렬 토큰 생성과 샘플링을 수행한다.





