https://arxiv.org/html/2405.09818v1


저희는 이미지와 텍스트를 임의의 순서로 이해하고 생성할 수 있는 초기 융합 토큰 기반 혼합 모달 모델인 Chameleon을 소개합니다. Chameleon의 안정적인 훈련 방법, 정렬 방법, 초기 융합 토큰 기반 혼합 모달 설정에 맞춘 아키텍처 파라미터 설정을 설명합니다. 모델은 시각적 질문 응답, 이미지 캡션 작성, 텍스트 생성, 이미지 생성, 장문 혼합 모달 생성 등 다양한 과제에서 평가되었습니다. Chameleon은 이미지 캡션 작업에서 최첨단 성능을 보여주고, 텍스트 전용 작업에서는 Llama-2보다 뛰어나며 Mixtral 8x7B 및 Gemini-Pro와 경쟁할 수 있는 성능을 보입니다. 또한 단일 모델에서 비중요한 이미지 생성도 수행합니다. 새로운 장문 혼합 모달 생성 평가에서, Chameleon은 Gemini Pro 및 GPT-4V와 같은 더 큰 모델들의 성능을 맞추거나 초과하며, 인간 평가에서도 우수한 성과를 보입니다. Chameleon은 완전한 멀티모달 문서의 통합 모델링에서 중요한 진전을 나타냅니다.


(GPT-4o 이용해서 abstract 요약)


메타에서 Chameleon 7b, 34b라는 모델을 발표했습니다