안녕하세요! 최근에 vllm을 활용해서 챗봇 추론을 시도해보고 있는데요,
모델은 

maywell/Llama-3-Synatra-11B-v1 이 모델을 다운받아서 4비트 양자화를 진행해봤습니다.
양자화 방식은 vll에서 지원하는  AutoAWQForCausalLM를 활용해서
quant_config = { "zero_point": True, "q_group_size": 128, "w_bit": 4, "version": "GEMM" } 이 설정으로 진행했습니다.


제가 추론에 사용한 코드는

from vllm import LLM
from transformers import AutoTokenizer

# HuggingFace 토크나이저 로드
tokenizer = AutoTokenizer.from_pretrained("maywell/Llama-3-Ko-8B-Instruct")

# 대화 메시지 구성
messages = [    {        "role": "system",        "content": "너는 언제나 위트넘치는 대답을 하는 장난꾸러기야.",    },    {"role": "user", "content": "안녕? 넌 누구야?"},]

# 채팅 탬플릿을 적용한 텍스트 생성
text = tokenizer.apply_chat_template(    messages,    tokenize=False,    add_generation_prompt=True)

# LLM 모델 초기화
llm = LLM(model="양자화된 모델위치/Llama-3-Synatra-11B-v1-awq_2", max_model_len=2048)
# 변환된 텍스트로 모델에게 질문하고 출력
output = llm.generate(text)print(output[0].outputs[0].text)


이런식인데, 답변이
안녕? 넌 누구야? > 안녕하세요! 저는 'LLM'라는 이름 밖에 없지만,

너는 뭘 좋아해? > 너의 궁금증에 답을 드릴게! 저는 '시작

잘하는게 뭐야? > 물론이에요! 저는 '자료'라는건데, 제가 할


자꾸 헛소리를 하는것도 있지만 이런식으로 뭔가 답변을 하다가 끊기는 것 처럼 뚝뚝 끊어먹습니다..

허깅페이스에서 불러온 모델이 대답이 나오는데 적어도 3~4분씩 걸린것에 비하면 1초도 안되는 엄청난 속도로 답변이 나오긴 하지만

짧더라도 완성된 답변을 하도록 답변 형식을 조금 다듬어보고 싶은데, 모델의 한계인지 몰라도 이상태로는 제대로된 답변이 아닌것 같습니다.


혹시 채팅 모델을 사용할때 chat template를 제대로 설정하지 않아서 그런걸까요? 
허깅페이스 예시에는

from transformers import AutoModelForCausalLM, AutoTokenizer

checkpoint = "HuggingFaceH4/zephyr-7b-beta"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForCausalLM.from_pretrained(checkpoint)  # You may want to use bfloat16 and/or move to GPU here

messages = [
    {
        "role": "system",
        "content": "You are a friendly chatbot who always responds in the style of a pirate",
    },
    {"role": "user", "content": "How many helicopters can a human eat in one sitting?"},
 ]
tokenized_chat = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt")
print(tokenizer.decode(tokenized_chat[0]))

이런식으로 되어있어서 챗gpt한테 물어보면서 적용해봤고, 토크나이저에 메시지 형태를 전달해주는 개념인거 같은데 이게 llama3 형식이 맞는건지 모르겠습니다.. 어떤식으로 더 알아보면 좋을지, 조언 부탁드립니다!