언어모델 GGUF 형식으로 직접 변환하는 법

How do I create a GGUF model file?

https://www.secondstate.io/articles/convert-pytorch-to-gguf/

llama2 LLM 제품군은 일반적으로 PyTorch에서 훈련되고 미세 조정됩니다. 따라서 일반적으로 Huggingface에서 PyTorch 프로젝트로 배포됩니다. 하지만 추론과 관련해서는 다음 세 가지 이유로 인해 GGUF 모델 형식에 훨씬 더 관심이 많습니다.

1) Python은 AI 추론을 위한 훌륭한 스택이 아닙니다. 우리는 프로덕션 시스템에서 PyTorch와 Python에 대한 의존성을 없애기를 원합니다. GGUF는 llama.cpp 및 WasmEdge와 같은 도구를 사용하여 파이썬을 완전히 배제하면서도 매우 효율적인 추론을 지원할 수 있습니다.

2) llama2 모델은 16비트 부동 소수점 숫자를 가중치로 사용하여 훈련됩니다. 추론을 위해 이를 4비트 정수로 축소하면 성능 손실은 크지 않으면서도 많은 양의 컴퓨팅 리소스(특히 값비싼 GPU RAM)를 절약할 수 있음이 입증되었습니다. 이 과정을 양자화(quantization)라고 합니다.

3) GGUF 형식은 LLM 추론을 위해 특별히 설계되었습니다. 언어 인코딩 및 디코딩과 같은 LLM 작업을 지원하므로 PyTorch보다 더 빠르고 쉽게 사용할 수 있습니다.

사전 변환된 모델 다운로드

Download pre-made artifacts

많은 허깅페이스 리포지토리는 이미 GGUF 형식으로 양자화된 llama2 제품군 모델에 대한 액세스를 제공합니다. 해당 GGUF 파일을 다운로드하기만 하면 됩니다. 다음은 GGUF의 표준 llama2 모델에 대한 신뢰할 수 있는 다운로드 링크입니다.

GGUF model file	7B	13B	70B
Base	llama-2-7b.Q5_K_M.gguf	llama-2-13b.Q5_K_M.gguf	llama-2-70b.Q5_K_M.gguf
Chat	llama-2-7b-chat.Q5_K_M.gguf	llama-2-13b-chat.Q5_K_M.gguf	llama-2-70b-chat.Q5_K_M.gguf