vllm vs 엑스라마2 - Ai 언어모델 로컬 채널

Ai 언어모델 로컬 채널

알림 알림 중 알림 취소

구독자 3448명 알림수신 170명 @바바리맨

제한없는 언어모델을 위한 채널

질문 vllm vs 엑스라마2

끼랑까랑

추천 0 비추천 0 댓글 2 조회수 566 작성일 2024-05-16 02:48:03

⚠️ 이 게시물은 작성자가 삭제할 수 없도록 설정되어 있습니다.

https://arca.live/b/alpaca/106304346

사실 그동안 엑스라마2만 쓰고 있습니다. 과거에 bloke좌가 만들어놓은 gptq로 엑스라마2 돌리면 충분히 빠르더라구요.

13b 기준으로 한 80토큰은 나오니까.

근데 제가 이거를 다양한 사용자에게 서비스하거나 채팅채널에서 로컬챈섭을 오픈하고 싶으면

vllm이 나을것 같은데 확실히 다중 접속자 대상으로는 vllm이 속도가 더 빠르다는것은 알겠는데

혹시 딱 1개의 요청만으로도 vllm이 더 빠를까요? 만약 vllm이 더 빠르다면 굳이 앞으로 엑스라마2를 쓸필요가 없을거 같아서요(대부분 awq로도 공개된게 많으니 vllm이 낫지 싶어서요.)

4비트 양자화라고 하면 지능도 비슷할거 같은데 혹시 엑스라마2가 더 나은점이 있을까요?

댓글 [2] 글쓰기

끼랑까랑

2024-05-16 02:50:43 답글

참고로 4090 기준입니다~

펼쳐보기▼

모맵

2024-05-16 04:29:41 답글

아뇨, 한명인 경우는 exllama2가 더 빨라요

펼쳐보기▼

글쓰기

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 질문 정보 학습 자료 자작모델 스터디 공지 운영 공모

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 29884517

공지 Ai 언어모델 로컬 채널 이용규정

바바리맨 2023.04.18 6119

공지 뉴비에게 도움 되는 글 모음

바바리맨 2023.04.18 27638

공지 언어모델 관련 정보취득 /무료체험 가능 사이트

바바리맨 2023.04.18 9126

공지 여러분의 학습에 도움을 줄 수 있는 하드웨어 지원

4274 일반 LLMOps로 살아남을 수 있을까? [10]

maywell 2024.06.02 470 9

4273 일반 라마3-v 8b모델 공개했네요 [2]

ㅇㅇ 2024.06.01 392 1

4272 질문 LoRA 제작 두번 실패하면서 모은 질문들 [5]

세법상법 2024.06.01 247 2

4271 일반 command r plus 4bit + 3090 4way 후기 [6]

감별사 2024.06.01 399 5

ㅇㅇ 2024.06.01 445 14

4269 일반 일지

세법상법 2024.05.31 193 0

4268 일반 vast.ai + command r plus 4bit + a4000 * 8 [8]

감별사 2024.05.31 280 5

4267 일반 오늘은 다른 방식으로 굽는 중

세법상법 2024.05.31 204 0

4266 질문 데이터 형식 질문

ㅇㅇ 2024.05.31 170 0

4265 일반 rtx5090 vram 28기가 루머 [18]

whs 2024.05.31 693 2

4264 일반 4060ti 16g 4way 로는 command r plus 는 좀 힘드네요 [12]

감별사 2024.05.30 438 3

4263 일반 runpod tinyllama 야인시대 LoRA 시도(실패) [2]

세법상법 2024.05.30 320 4

4262 일반 gpu 안좋은 분들 뭐 씀? [9]

세법상법 2024.05.30 681 0

4261 일반 aya-23-35B 6.0bpw + 아프로디테로 "소설가가 되자" 일한 번역 [17]

bedovyy 2024.05.30 927 16

4260 일반 하 이직하고 오랜만에 접속하니 세계가 바뀌어 있네요... [10]

lIlBrother 2024.05.30 863 5

4259 정보 Mistral의 첫 코딩 AI, Codestral 발표 [3]

Thomas_Shelby 2024.05.29 661 5

4258 정보 MS, 미세조정 기술 '로라' 개선한 '모라' 공개 [3]

ㅇㅇ (211.214) 2024.05.29 1040 17

4257 일반 역시 Kiqu 70B는 맛있네요 [2]

용바오 2024.05.29 652 0

4256 일반 (리눅스) 수정된 nvidia 드라이버로 3090/4090 에서 P2P를 활성화해보자.

bedovyy 2024.05.29 433 5

4255 일반 혹시 채널발 '한국어' 정보글 집대성 해볼 생각 없음? [26]

세법상법 2024.05.29 1068 13

글쓰기

전체글 개념글

사용하고 계신 브라우저가 시간대 설정을 지원하지 않으므로 GMT 시간대가 적용됩니다.