★ QA-LoRA: 대규모 언어 모델의 양자화 인식 로라 - AI 정보 채널

AI 정보 채널

알림 알림 중 알림 취소

구독자 504명 알림수신 14명 @산정

개인용창고: (언어모델 위주의) 인공지능 논문, 뉴스, 팁, 라이브러리 등

논문 ★ QA-LoRA: 대규모 언어 모델의 양자화 인식 로라

추천 0 비추천 0 댓글 0 조회수 412 작성일 2023-09-27 15:59:58 수정일 2023-09-27 16:04:10

https://arca.live/b/ai101/87353004

QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models

QA-LoRA: 대규모 언어 모델의 양자화 인식 로라

Yuhui Xu, Lingxi Xie, Xiaotao Gu, Xin Chen, Heng Chang, Hengheng Zhang, Zhensu Chen, Xiaopeng Zhang, Qi Tian

https://github.com/yuhuixu1993/qa-lora

최근 몇 년 동안 대규모 언어 모델(LLM)이 급속도로 발전하고 있습니다. 이들은 많은 언어 이해 작업에서 강력한 성능을 발휘하지만, 무거운 계산 부담으로 인해 (특히 에지 디바이스에 배포해야 할 때) LLM의 응용 범위가 크게 제한됩니다.

이 논문에서는 양자화 인식 로라(Quantization-Aware Low-Rank Adaptation, QA-LoRA) 알고리즘을 제안합니다.

우리는 양자화(Quantization)와 적응(Adaptation)의 자유도가 불균형하다는 점에 착안하였으며, 그 해결책으로 양자화의 자유도를 높이는 동시에 적응의 자유도를 낮추는 그룹별 연산자(group-wise operators)를 사용하였습니다.

QA-LoRA는 몇 줄의 코드로 쉽게 구현할 수 있으며, 두 가지 기능을 오리지널 LoRA에 탑재합니다.

(1) 파인튜닝 중에 LLM의 가중치를 양자화 하여(예: INT4로) 시간과 메모리 사용량을 줄이고,

(2) 파인튜닝 후에는 LLM과 보조 가중치(auxiliary weights)를 정확도 손실 없이 양자화된 모델에 자연스럽게 통합합니다.

우리는 QA-LoRA를 LLaMA 및 LLaMA2 모델 제품군에 적용하고, 다양한 파인튜닝 데이터셋과 다운스트림 시나리오에서 그 효과를 검증하였습니다.

코드는 다음 URL에서 확인할 수 있습니다.

관련 레딧:

https://www.reddit.com/r/LocalLLaMA/comments/16tgvtc/introducing_qalora_quantizationaware_lowrank/

댓글 [0]

본 게시물에 댓글을 작성하실 권한이 없습니다. 로그인 하신 후 댓글을 다실 수 있습니다. 아카라이브 로그인

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 정보 논문 깃헙 모델 후기 스터디 채팅 음성 이미지 영상 모음 공지

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 29710185

공지 입원으로 자리 비움 // 채널 설명 및 자주 쓰는 링크

산정 2023.05.30 506

682 일반 갓채널 [4]

Ai프로일러레성정문 2024.04.20 452 0

681 후기 GPTs에 인생첫 챗봇인 fourierGPT 를 만들어 보았습니다. [2]

뿌리골무 2023.11.11 1160 3

680 정보 지난 수 개월 간의 ChatGPT 유저 세션 분석 [1]

산정 2023.10.01 896 0

679 정보 llama.cpp: 추측적 디코딩 + 문법 지원

산정 2023.10.01 447 0

678 모델 NexusRaven-13B: 함수 호출(function calling) 특화 언어모델

산정 2023.10.01 304 0

677 논문 ★ QA-LoRA: 대규모 언어 모델의 양자화 인식 로라

산정 2023.09.27 413 0

676 모델 ★ MistralAI 7B (새로운 기초모델)

산정 2023.09.27 533 1

675 스터디 ★ [번역] 들쭉날쭉한 경계에 선 켄타우로스와 사이보그

산정 2023.09.26 281 1

674 정보 언어모델 GGUF 형식으로 직접 변환하는 법 [1]

산정 2023.09.26 1805 0

673 모델 플롯봇(PlotBOT): 소설 플롯 작성 전문 모델 [1]

산정 2023.09.24 333 1

672 논문 ★ 기계 번역의 패러다임 전환: 대규모 언어 모델의 번역 성능 향상

산정 2023.09.23 295 2

671 모델 LLaMa2-LongLoRA (32k 컨텍스트의 70B 모델)

산정 2023.09.23 205 1

670 논문 LongLoRA: 긴 컨텍스트 LLM의 효율적인 파인튜닝

산정 2023.09.23 178 0

669 논문 대규모 언어 모델의 모호성 인식 문맥 내 학습

산정 2023.09.22 173 0

668 논문 에이전트(Agents): 자율 언어 에이전트를 위한 오픈 소스 프레임워크

산정 2023.09.21 133 0

667 논문 LLM의 추론을 개선하는 대조적 디코딩(Contrastive Decoding)

산정 2023.09.20 206 1

666 논문 고속 피드포워드 네트워크(Fast Feedforward Networks) [1]

산정 2023.09.20 170 0

665 정보 미로스탯(Mirostat) 파라미터

산정 2023.09.20 133 0

664 논문 모듈포머(ModuleFormer): 전문가 혼합(MoE)에서 발현되는 모듈성 (IBM)

산정 2023.09.19 151 0

663 스터디 ★ [번역] 단 하나의 예제로도 언어모델은 배울 수 있나요?

산정 2023.09.19 281 1

전체글 개념글

사용하고 계신 브라우저가 시간대 설정을 지원하지 않으므로 GMT 시간대가 적용됩니다.