QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models

QA-LoRA: 대규모 언어 모델의 양자화 인식 로라

Yuhui Xu, Lingxi Xie, Xiaotao Gu, Xin Chen, Heng Chang, Hengheng Zhang, Zhensu Chen, Xiaopeng Zhang, Qi Tian

https://github.com/yuhuixu1993/qa-lora


최근 몇 년 동안 대규모 언어 모델(LLM)이 급속도로 발전하고 있습니다. 이들은 많은 언어 이해 작업에서 강력한 성능을 발휘하지만, 무거운 계산 부담으로 인해 (특히 에지 디바이스에 배포해야 할 때) LLM의 응용 범위가 크게 제한됩니다. 


이 논문에서는 양자화 인식 로라(Quantization-Aware Low-Rank Adaptation, QA-LoRA) 알고리즘을 제안합니다. 


우리는 양자화(Quantization)와 적응(Adaptation)의 자유도가 불균형하다는 점에 착안하였으며, 그 해결책으로 양자화의 자유도를 높이는 동시에 적응의 자유도를 낮추는 그룹별 연산자(group-wise operators)를 사용하였습니다. 


QA-LoRA는 몇 줄의 코드로 쉽게 구현할 수 있으며, 두 가지 기능을 오리지널 LoRA에 탑재합니다.

(1) 파인튜닝 중에 LLM의 가중치를 양자화 하여(예: INT4로) 시간과 메모리 사용량을 줄이고, 

(2) 파인튜닝 후에는 LLM과 보조 가중치(auxiliary weights)를 정확도 손실 없이 양자화된 모델에 자연스럽게 통합합니다.


우리는 QA-LoRA를 LLaMA 및 LLaMA2 모델 제품군에 적용하고, 다양한 파인튜닝 데이터셋과 다운스트림 시나리오에서 그 효과를 검증하였습니다. 


코드는 다음 URL에서 확인할 수 있습니다.






관련 레딧:

https://www.reddit.com/r/LocalLLaMA/comments/16tgvtc/introducing_qalora_quantizationaware_lowrank/