사실 그동안 엑스라마2만 쓰고 있습니다. 과거에 bloke좌가 만들어놓은 gptq로 엑스라마2 돌리면 충분히 빠르더라구요.


13b 기준으로 한 80토큰은 나오니까.


근데 제가 이거를 다양한 사용자에게 서비스하거나 채팅채널에서 로컬챈섭을 오픈하고 싶으면 


vllm이 나을것 같은데 확실히 다중 접속자 대상으로는 vllm이 속도가 더 빠르다는것은 알겠는데


혹시 딱 1개의 요청만으로도 vllm이 더 빠를까요? 만약 vllm이 더 빠르다면 굳이 앞으로 엑스라마2를 쓸필요가 없을거 같아서요(대부분 awq로도 공개된게 많으니 vllm이 낫지 싶어서요.)


4비트 양자화라고 하면 지능도 비슷할거 같은데 혹시 엑스라마2가 더 나은점이 있을까요?