·arxiv.org
QKV 3중 projection이 필수인지 검증한 연구, key-value 공유로 KV cache 최대 50% 절감 제시
arXiv에 제출된 이 아티클은 Transformer attention의 query, key, value projection 중 일부를 공유하는 QKV 변형을 체계적으로 평가합니다. 합성 과제, vision, language modeling 실험에서 일부 공유 구조가 표준 QKV와 비슷하거나 더 나은 성능을 보였으며, 특...
읽기 →