vllm 활용 추론 관련해서 질문드립니다.

Ai 언어모델 로컬 채널

알림 알림 중 알림 취소

구독자 3449명 알림수신 170명 @바바리맨

제한없는 언어모델을 위한 채널

질문 vllm 활용 추론 관련해서 질문드립니다.

Dikko

추천 0 비추천 0 댓글 10 조회수 564 작성일 2024-05-07 17:35:07

⚠️ 이 게시물은 작성자가 삭제할 수 없도록 설정되어 있습니다.

https://arca.live/b/alpaca/105642348

안녕하세요! 최근에 vllm을 활용해서 챗봇 추론을 시도해보고 있는데요,
모델은

maywell/Llama-3-Synatra-11B-v1 이 모델을 다운받아서 4비트 양자화를 진행해봤습니다.

양자화 방식은 vll에서 지원하는 AutoAWQForCausalLM를 활용해서

quant_config = { "zero_point": True, "q_group_size": 128, "w_bit": 4, "version": "GEMM" } 이 설정으로 진행했습니다.

제가 추론에 사용한 코드는

from vllm import LLM

from transformers import AutoTokenizer

# HuggingFace 토크나이저 로드
tokenizer = AutoTokenizer.from_pretrained("maywell/Llama-3-Ko-8B-Instruct")

# 대화 메시지 구성
messages = [ { "role": "system", "content": "너는 언제나 위트넘치는 대답을 하는 장난꾸러기야.", }, {"role": "user", "content": "안녕? 넌 누구야?"},]

# 채팅 탬플릿을 적용한 텍스트 생성
text = tokenizer.apply_chat_template( messages, tokenize=False, add_generation_prompt=True)

# LLM 모델 초기화
llm = LLM(model="양자화된 모델위치/Llama-3-Synatra-11B-v1-awq_2", max_model_len=2048)
# 변환된 텍스트로 모델에게 질문하고 출력
output = llm.generate(text)print(output[0].outputs[0].text)

이런식인데, 답변이
안녕? 넌 누구야? > 안녕하세요! 저는 'LLM'라는 이름 밖에 없지만,

너는 뭘 좋아해? > 너의 궁금증에 답을 드릴게! 저는 '시작

잘하는게 뭐야? > 물론이에요! 저는 '자료'라는건데, 제가 할

자꾸 헛소리를 하는것도 있지만 이런식으로 뭔가 답변을 하다가 끊기는 것 처럼 뚝뚝 끊어먹습니다..

허깅페이스에서 불러온 모델이 대답이 나오는데 적어도 3~4분씩 걸린것에 비하면 1초도 안되는 엄청난 속도로 답변이 나오긴 하지만

짧더라도 완성된 답변을 하도록 답변 형식을 조금 다듬어보고 싶은데, 모델의 한계인지 몰라도 이상태로는 제대로된 답변이 아닌것 같습니다.

혹시 채팅 모델을 사용할때 chat template를 제대로 설정하지 않아서 그런걸까요?
허깅페이스 예시에는

from transformers import AutoModelForCausalLM, AutoTokenizer

checkpoint = "HuggingFaceH4/zephyr-7b-beta"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForCausalLM.from_pretrained(checkpoint)  # You may want to use bfloat16 and/or move to GPU here

messages = [
    {
        "role": "system",
        "content": "You are a friendly chatbot who always responds in the style of a pirate",
    },
    {"role": "user", "content": "How many helicopters can a human eat in one sitting?"},
 ]
tokenized_chat = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt")
print(tokenizer.decode(tokenized_chat[0]))

이런식으로 되어있어서 챗gpt한테 물어보면서 적용해봤고, 토크나이저에 메시지 형태를 전달해주는 개념인거 같은데 이게 llama3 형식이 맞는건지 모르겠습니다.. 어떤식으로 더 알아보면 좋을지, 조언 부탁드립니다!

댓글 [10] 글쓰기

Dikko

2024-05-07 17:45:14 답글

이런식으로 되어있어서 챗gpt한테 물어보면서 적용해봤고, 토크나이저에 메시지 형태를 전달해주는 개념인거 같은데 이게 llama3 형식이 맞는건지 모르겠습니다.. 어떤식으로 더 알아보면 좋을지, 조언 부탁드립니다!
(모바일로 끊겨보여서 아래쪽 내용 첨부합니다)

펼쳐보기▼

ㅇㅇ (210.91)

2024-05-08 01:04:22 삭제 수정 답글

제가 vllm을 안써보긴했는데 우선 중괄호 안에 content가 끝날때 쉼표는 필요없고 eos 토큰 설정이 제대로 안되있어서 문장이 이상한데서 끊기는거네요
라마3 페이지에서 다운 허가 받으시면 보이실텐데 메타가 써준 라마3 기본 코드는

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model_id = "meta-llama/Meta-Llama-3-8B-Instruct"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto",
)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

input_ids = tokenizer.apply_chat_template(
    messages,
    add_generation_prompt=True,
    return_tensors="pt"
).to(model.device)

terminators = [
    tokenizer.eos_token_id,
    tokenizer.convert_tokens_to_ids("<|eot_id|>")
]

outputs = model.generate(
    input_ids,
    max_new_tokens=256,
    eos_token_id=terminators,
    do_sample=True,
    temperature=0.6,
    top_p=0.9,
)
response = outputs[0][input_ids.shape[-1]:]
print(tokenizer.decode(response, skip_special_tokens=True))
입니다.

참고로
라마3 정식 템플레이트는
<|begin_of_text|><|start_header_id|>system<|end_header_id|>

{{ system_prompt }}<|eot_id|><|start_header_id|>user<|end_header_id|>

{{ user_message }}<|eot_id|><|start_header_id|>assistant<|end_header_id|>
이거고 시스템 프롬프트 부분은 없어도 되긴합니다.

메타3 허깅페이스 링크는 https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct
템플레이트 링크는 https://llama.meta.com/docs/model-cards-and-prompt-formats/meta-llama-3/

huggingface.co

meta-llama/Meta-Llama-3-8B-Instruct · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

제가 vllm을 안써보긴했는데 우선 중괄호 안에 content가 끝날때 쉼표는 필요없고 eos 토큰 설정이 제대로 안되있어서 문장이 이상한데서 끊기는거네요
라마3 페이지에서 다운 허가 받으시면 보이실텐데 메타가 써준 라마3 기본 코드는

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model_id = "meta-llama/Meta-Llama-3-8B-Instruct"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto",
)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

input_ids = tokenizer.apply_chat_template(
    messages,
    add_generation_prompt=True,
    return_tensors="pt"
).to(model.device)

terminators = [
    tokenizer.eos_token_id,
    tokenizer.convert_tokens_to_ids("<|eot_id|>")
]

outputs = model.generate(
    input_ids,
    max_new_tokens=256,
    eos_token_id=terminators,
    do_sample=True,
    temperature=0.6,
    top_p=0.9,
)
response = outputs[0][input_ids.shape[-1]:]
print(tokenizer.decode(response, skip_special_tokens=True))
입니다.

참고로
라마3 정식 템플레이트는
<|begin_of_text|><|start_header_id|>system<|end_header_id|>

{{ system_prompt }}<|eot_id|><|start_header_id|>user<|end_header_id|>

{{ user_message }}<|eot_id|><|start_header_id|>assistant<|end_header_id|>
이거고 시스템 프롬프트 부분은 없어도 되긴합니다.

메타3 허깅페이스 링크는 https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct
템플레이트 링크는 https://llama.meta.com/docs/model-cards-and-prompt-formats/meta-llama-3/

펼쳐보기▼

Dikko

2024-05-08 03:48:28 답글

상세한 답변 정말 감사합니다!eos토큰 주고 테스트해보겠습니다!

펼쳐보기▼

ㅇㅇ (220.88)

2024-05-08 02:10:58 삭제 수정 답글

sampling_params을 줘서 max_gen_toknes? 인가 그거 높여줘야 해요 . 기본값이 24인가 그럼

펼쳐보기▼

Dikko

2024-05-08 03:54:21 답글

max_tokens 말씀하시는것 같습니다. 꿀팁 감사합니다!

펼쳐보기▼

marp

2024-05-08 02:28:42 답글

fastchat 한번 써보세용

펼쳐보기▼

Dikko

2024-05-08 04:24:01 답글

추천 감사합니다. 그런데 제가 잘 몰라서 여쭤보는데 혹시 vllm이랑 비교했을때 fastchat만의 장점이 있을까요? 추천해주신 이유를 알고싶습니다!

펼쳐보기▼

2024-05-08 06:28:12 답글

vllm은 도다리 AI번역에 잘쓰고 있어요.
한번에 하나의 메시지를 처리할때보다 list로 대화를 한번에 몰아넣고 대량으로 대답을 받을때 vllm의 진가가 나오더라고요. 그래서 저는 한번에 천개의 질문을 동시에 던져서 대답을 받고 있어요. 
경험상 vllm 답변에 가장 큰 영향을 준건
        self.sampling_params = SamplingParams(
            temperature=self.temperature,
            top_p=self.top_p,
            max_tokens=self.vllm_max_len,
        )
이 부분이에요. 온도와 top_p를 테스트하며 여러가지로 조절해보세요.

펼쳐보기▼

Dikko

2024-05-08 09:51:18 답글

오..상세한 설명 너무 감사드립니다!

펼쳐보기▼

Dikko

2024-05-08 09:51:26 답글

글쓰기

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 질문 정보 학습 자료 자작모델 스터디 공지 운영 공모

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 29935752

공지 Ai 언어모델 로컬 채널 이용규정

바바리맨 2023.04.18 6119

공지 뉴비에게 도움 되는 글 모음

바바리맨 2023.04.18 27661

공지 언어모델 관련 정보취득 /무료체험 가능 사이트

바바리맨 2023.04.18 9131

공지 여러분의 학습에 도움을 줄 수 있는 하드웨어 지원

1298 질문 LoRA 제작 두번 실패하면서 모은 질문들 [6]

세법상법 2024.06.01 294 3

1297 질문 데이터 형식 질문

ㅇㅇ 2024.05.31 175 0

1296 질문 공부하다가 모르는게 있어서 질문드립니다 [9]

ㅇㅇ 2024.05.29 533 3

1295 질문 text-generation-webui 에서 답변을 받아오고싶은데 뭘로 검색해야 찾아볼수있나요 ? [1]

ㅇㅇ (211.118) 2024.05.27 500 0

1294 질문 4060Ti 을 더 구매해서 vllm 을 사용하려합니다. [2]

감별사 2024.05.27 590 7

1293 질문 혹시 resnet 코드 한번만 봐주실수 있나요? [2]

Kairos 2024.05.26 439 0

1292 질문 vllm을 langchain과 함께 사용할때 템플릿 적용 문제 질문드립니다.

Dikko 2024.05.26 352 1

1291 질문 Whisper에 대해 잘 아시는 분? [8]

ㅇㅇ (124.49) 2024.05.25 830 -1

1290 질문 간단한 질문드립니다! [4]

ㅇㅇ (121.166) 2024.05.24 317 0

1289 질문 회사에 RAG 쓰시는 분들에게 질문 [18]

ㅇㅇ (1.232) 2024.05.24 1105 5

1288 질문 프롬프트 엔지니어링이라는 용어의 범주? [2]

초당옥수꾸 2024.05.23 494 0

1287 질문 unsloth에서 device map 설정 방법 아시는 분 계실까요? [2]

ㅇㅇ (58.234) 2024.05.23 297 0

1286 질문 전력공학이나 전기공학 학습용 데이터같은것도있을까요? [1]

ㅇㅇ (1.235) 2024.05.22 280 0

1285 질문 contex 개념 좀 한번 잡아주세요 [4]

ㅇㅋㄹ 2024.05.22 329 0

1284 질문 aphrodite-engine 모델 서비스 [8]

ㅇㅇ 2024.05.22 435 0

1283 질문 모델 받는중 오류 [2]

Thomas_Shelby 2024.05.21 337 0

1282 질문 런팟 GPU 0개 질문 [7]

ㅇㅇ (116.124) 2024.05.21 402 1

1281 질문 정말 간단한 용어에 대한 질문인데 헷갈려서요.. [6]

초당옥수꾸 2024.05.21 486 0

1280 질문 파인튜닌 할때 어떤거 사용하시나요? [6]

ㅇㅇ 2024.05.20 583 2

1279 질문 파인튜닝한 모델을 기존 모델 참조 없이 독립적으로 저장하고싶을 때 [7]

ㅇㅇ (58.234) 2024.05.20 476 1

글쓰기

전체글 개념글

사용하고 계신 브라우저가 시간대 설정을 지원하지 않으므로 GMT 시간대가 적용됩니다.