WeDLM

2025년 12월 29일 텐센트에서 공개한 당대 가장 빠른 확산 언어 모델로, 실제 실행속도에서 vLLM 최적화 자기회귀 기준 모델보다 뛰어난 성능을 보였다.

표준 인과적 어텐션 메커니즘 내에서 병렬 마스크 복구 기능을 수행하도록 설계된 것이 특징이다.

기존 확산 언어 모델 대다수는 양방향 어텐션 방식을 채택하고 있다. 그러나 이러한 구조는 다음과 같은 기술적 한계를 지닌다.

1.양방향 구조는 이전 연산 결과를 재사용하는 KV 캐시 기술과의 호환성을 저해한다.

2.vLLM과 같이 최적화된 자기회귀 엔진 대비, 확산 모델의 병렬 예측 성능이 실질적인 추론 속도 향상으로 직결되지 못하는 원인이 된다.

WeDLM은 표준 인과적 어텐션 메커니즘을 기반으로 병렬 마스크 복구를 수행함으로써 위와 같은 구조적 문제를 해결하였다. 이를 통해 다음과 같은 기능을 구현할 수 있다.

1.인과적 어텐션 구조를 채택함으로써 vLLM 등 기존의 최적화된 자기회귀 추론 엔진과의 호환성을 확보하였다.

2.표준 메커니즘 하에서도 병렬 마스크 복구를 가능하게 하여, 병렬 예측 성능을 실질적인 연산 속도 향상으로 전환하였다.

일간베스트 저장소