LLaMa2-LongLoRA (32k 컨텍스트의 70B 모델) - AI 정보 채널

AI 정보 채널

알림 알림 중 알림 취소

구독자 509명 알림수신 14명 @산정

개인용창고: (언어모델 위주의) 인공지능 논문, 뉴스, 팁, 라이브러리 등

모델 LLaMa2-LongLoRA (32k 컨텍스트의 70B 모델)

추천 1 비추천 0 댓글 0 조회수 219 작성일 2023-09-23 04:11:23

https://arca.live/b/ai101/86947181

[논문] https://arxiv.org/abs/2309.12307

[깃헙] https://github.com/dvlab-research/LongLoRA

[모델] https://huggingface.co/Yukang

https://huggingface.co/Yukang/Llama-2-70b-longlora-32k

https://huggingface.co/Yukang/Llama-2-7b-longlora-100k-ft (100K 컨텍스트의 라마2 7B)

https://huggingface.co/Yukang/Llama-2-13b-chat-longlora-32k-sft

https://huggingface.co/Yukang/Llama-2-70b-chat-longlora-32k-sft (32K로 훈련된 최초의 70B 모델)

※ 아래에 소개한 LongLoRA 논문에 따라 훈련된 긴 문맥의 모델들.

※ Pdf2text: 모델 학습 과정에서 PDF파일을 TXT로 변환시켰으며, 저자들은 이 변환 과정의 퀄리티가 언어모델의 학습결과에 상당한 영향을 준다는 판단 하에 관련 스크립트도 공개하였으므로 관심있는 이들은 참고하면 좋을 듯.

https://github.com/dvlab-research/LongLoRA/blob/main/pdf2txt/README.md

댓글 [0]

본 게시물에 댓글을 작성하실 권한이 없습니다. 로그인 하신 후 댓글을 다실 수 있습니다. 아카라이브 로그인

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 정보 논문 깃헙 모델 후기 스터디 채팅 음성 이미지 영상 모음 공지

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 30817325

공지 입원으로 자리 비움 // 채널 설명 및 자주 쓰는 링크

산정 2023.05.30 526

682 일반 갓채널 [4]

Ai프로일러레성정문 2024.04.20 518 0

681 후기 GPTs에 인생첫 챗봇인 fourierGPT 를 만들어 보았습니다. [2]

뿌리골무 2023.11.11 1196 3

680 정보 지난 수 개월 간의 ChatGPT 유저 세션 분석 [1]

산정 2023.10.01 935 0

679 정보 llama.cpp: 추측적 디코딩 + 문법 지원

산정 2023.10.01 466 0

678 모델 NexusRaven-13B: 함수 호출(function calling) 특화 언어모델

산정 2023.10.01 316 0

677 논문 ★ QA-LoRA: 대규모 언어 모델의 양자화 인식 로라

산정 2023.09.27 430 0

676 모델 ★ MistralAI 7B (새로운 기초모델)

산정 2023.09.27 556 1

675 스터디 ★ [번역] 들쭉날쭉한 경계에 선 켄타우로스와 사이보그

산정 2023.09.26 297 1

674 정보 언어모델 GGUF 형식으로 직접 변환하는 법 [1]

산정 2023.09.26 1910 0

673 모델 플롯봇(PlotBOT): 소설 플롯 작성 전문 모델 [1]

산정 2023.09.24 361 1

672 논문 ★ 기계 번역의 패러다임 전환: 대규모 언어 모델의 번역 성능 향상

산정 2023.09.23 309 2

671 모델 LLaMa2-LongLoRA (32k 컨텍스트의 70B 모델)

산정 2023.09.23 220 1

670 논문 LongLoRA: 긴 컨텍스트 LLM의 효율적인 파인튜닝

산정 2023.09.23 192 0

669 논문 대규모 언어 모델의 모호성 인식 문맥 내 학습

산정 2023.09.22 184 0

668 논문 에이전트(Agents): 자율 언어 에이전트를 위한 오픈 소스 프레임워크

산정 2023.09.21 144 0

667 논문 LLM의 추론을 개선하는 대조적 디코딩(Contrastive Decoding)

산정 2023.09.20 223 1

666 논문 고속 피드포워드 네트워크(Fast Feedforward Networks) [1]

산정 2023.09.20 181 0

665 정보 미로스탯(Mirostat) 파라미터

산정 2023.09.20 144 0

664 논문 모듈포머(ModuleFormer): 전문가 혼합(MoE)에서 발현되는 모듈성 (IBM)

산정 2023.09.19 163 0

663 스터디 ★ [번역] 단 하나의 예제로도 언어모델은 배울 수 있나요?

산정 2023.09.19 293 1

전체글 개념글

사용하고 계신 브라우저가 시간대 설정을 지원하지 않으므로 GMT 시간대가 적용됩니다.