메타에서 gpt-4v와 같은 Mixed-Modal 발표했네요 - Ai 언어모델 로컬 채널

Ai 언어모델 로컬 채널

알림 알림 중 알림 취소

구독자 3448명 알림수신 170명 @바바리맨

제한없는 언어모델을 위한 채널

일반 메타에서 gpt-4v와 같은 Mixed-Modal 발표했네요

추천 18 비추천 0 댓글 10 조회수 1504 작성일 2024-05-17 10:53:47 수정일 2024-05-17 11:01:27

https://arca.live/b/alpaca/106427986

https://arxiv.org/html/2405.09818v1

저희는 이미지와 텍스트를 임의의 순서로 이해하고 생성할 수 있는 초기 융합 토큰 기반 혼합 모달 모델인 Chameleon을 소개합니다. Chameleon의 안정적인 훈련 방법, 정렬 방법, 초기 융합 토큰 기반 혼합 모달 설정에 맞춘 아키텍처 파라미터 설정을 설명합니다. 모델은 시각적 질문 응답, 이미지 캡션 작성, 텍스트 생성, 이미지 생성, 장문 혼합 모달 생성 등 다양한 과제에서 평가되었습니다. Chameleon은 이미지 캡션 작업에서 최첨단 성능을 보여주고, 텍스트 전용 작업에서는 Llama-2보다 뛰어나며 Mixtral 8x7B 및 Gemini-Pro와 경쟁할 수 있는 성능을 보입니다. 또한 단일 모델에서 비중요한 이미지 생성도 수행합니다. 새로운 장문 혼합 모달 생성 평가에서, Chameleon은 Gemini Pro 및 GPT-4V와 같은 더 큰 모델들의 성능을 맞추거나 초과하며, 인간 평가에서도 우수한 성과를 보입니다. Chameleon은 완전한 멀티모달 문서의 통합 모델링에서 중요한 진전을 나타냅니다.

(GPT-4o 이용해서 abstract 요약)

메타에서 Chameleon 7b, 34b라는 모델을 발표했습니다

댓글 [10] 글쓰기

2024-05-17 10:54:42 답글

*수정됨

저커버그 형아... 멀티 언어 버전은 어떻게 되어가고 있어? ㅠㅠ

펼쳐보기▼

2024-05-17 11:26:56 답글

저도 기다리는중입니다 ㅎ

펼쳐보기▼

단지널사랑해

2024-05-17 11:10:19 답글

hkhk

2024-05-17 12:08:41 답글

이미지 생성까지 디퓨전 말고 autoregressive 로 하는거 같은데 얼마나 잘 나올지 궁금하네요

펼쳐보기▼

2024-05-17 15:03:26 답글

*수정됨

오픈소스겠죠? 경쟁 좋다 gpt4o보단 못하려나

펼쳐보기▼

2024-05-17 18:05:54 답글

llava1.6하고 성능 차이 궁금하네요

펼쳐보기▼

2024-05-17 22:44:32 답글

2024-05-18 00:00:57 답글

2024-05-19 13:10:59 답글

ㅇㅇ (210.91)

2024-05-20 00:19:13 삭제 수정 답글

진짜 llava3랑 llama3가 한번에 구동되는 수준만 되도 만족할텐데

펼쳐보기▼

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 질문 정보 학습 자료 자작모델 스터디 공지 운영 공모

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 29887975

공지 Ai 언어모델 로컬 채널 이용규정

바바리맨 2023.04.18 6119

공지 뉴비에게 도움 되는 글 모음

바바리맨 2023.04.18 27644

공지 언어모델 관련 정보취득 /무료체험 가능 사이트

바바리맨 2023.04.18 9126

공지 여러분의 학습에 도움을 줄 수 있는 하드웨어 지원

바바리맨 2023.08.01 5251

공지 신문고

바바리맨 2023.04.18 2301

숨겨진 공지 펼치기(1개)

581 일반 LLMOps로 살아남을 수 있을까? [10]

maywell 2024.06.02 510 12

580 일반 특징 조작 관련 라마 모델 몇 가지 및 기술(Orthogonalization, ReFT, 우울한 라마, 금문교 라마) [3]

ㅇㅇ 2024.06.01 453 14

579 일반 (성공) Aphrodite + 160GB + 4060ti * 4 + llama 3 70b [23]

감별사 2024.05.29 1056 11

578 일반 aya-23-35B 6.0bpw + 아프로디테로 "소설가가 되자" 일한 번역 [17]

bedovyy 2024.05.30 932 16

577 정보 MS, 미세조정 기술 '로라' 개선한 '모라' 공개 [3]

ㅇㅇ (211.214) 2024.05.29 1043 17

576 일반 혹시 채널발 '한국어' 정보글 집대성 해볼 생각 없음? [26]

세법상법 2024.05.29 1072 13

575 일반 고민끝에 llm 개인 연구용으로 m2 mac studio ultra 구입했습니다. [30]

KevinRyu 2024.05.25 1474 13

574 스터디 llama2.c 모델 학습 결과 [2]

zzzzz5 2024.05.23 883 11

573 스터디 딥러닝모델의 망각증상 (Catastrophic Forgetting)에 대한 고찰 [13]

hkhk 2024.05.22 1304 33

572 스터디 TinyStories-Korean 모델 학습 결과 [6]

hkhk 2024.05.22 952 20

571 일반 이번에 업데이트된 chatgpt 4o진짜 코딩할때 짱이네요. [6]

끼랑까랑 2024.05.21 1389 15

570 일반 phi-3 small/medium 나왔네요 [15]

딸기맛봇치 2024.05.21 1527 17

569 정보 Augmentoolkit - 생 텍스트를 넣으면 instruct 데이터셋을 만들어주는 툴킷 [6]

hkhk 2024.05.16 927 14

568 일반 메타에서 gpt-4v와 같은 Mixed-Modal 발표했네요 [10]

그래요 2024.05.17 1505 18

567 일반 한국 유튜브 transcription 데이터셋 [11]

maywell 2024.05.17 1860 53

566 정보 LLaMA-3 8B, 70B 모델의 양자화 단계별 MMLU성능 비교표 [11]

hkhk 2024.05.16 1797 20

565 스터디 잔차연결(residual connection or skip connection) 에 대한 발상의 전환 [6]

hkhk 2024.05.16 1036 35

564 일반 aka Llama-3 70B 한국어 [7]

zzzzz5 2024.05.13 1950 15

563 일반 굉장히 저렴한 DeepSeek-V2 후기 [6]

감별사 2024.05.11 1437 12

전체글 개념글

사용하고 계신 브라우저가 시간대 설정을 지원하지 않으므로 GMT 시간대가 적용됩니다.