https://the-decoder.com/metas-chameleon-ai-model-blends-text-and-images-hinting-at-a-future-gpt-4o-rival/
https://arxiv.org/pdf/2405.09818

메타는 통합된 토큰 공간에서 텍스트와 이미지를 원활하게 처리하는 새로운 멀티모달 모델인 카멜레온을 소개했습니다. 이는 GPT-4o 대안의 선구자가 될 수 있습니다.


메타 AI는 텍스트와 이미지를 모두 개별 토큰으로 처리하는 멀티모달 기반 모델을 훈련하는 새로운 접근 방식인 카멜레온을 도입했습니다. 이전 방법과 달리 카멜레온은 통합 트랜스포머 아키텍처를 사용하며 Unified-IO 2와 같은 다른 아키텍처에서 사용하는 것처럼 다양한 모달리티에 대해 별도의 인코더나 디코더를 사용하지 않습니다.


메타의 모델은 처음부터 텍스트, 이미지, 코드가 혼합된 형태로 학습됩니다. 이미지는 먼저 텍스트의 단어와 유사하게 처리할 수 있는 개별 토큰으로 정량화됩니다.



처음부터 모든 모달리티를 공통 표현 공간에 투영하는 이 '초기 융합' 접근 방식을 통해 카멜레온은 모달리티 간에 원활하게 추론하고 생성할 수 있습니다. 그러나 이는 특히 훈련의 안정성과 확장성 측면에서 연구진에게 상당한 기술적 과제를 안겨주었습니다.


이러한 과제를 극복하기 위해 연구팀은 일련의 아키텍처 혁신과 훈련 기법을 소개합니다. 또한 순수 언어 모델에 사용되는 감독 미세 조정 방법을 혼합 양식 사례에 어떻게 적용할 수 있는지 보여줍니다.

카멜레온은 모든 모달리티에서 일관되게 강력한 성능을 보여줍니다.


이러한 기술을 사용하여 340억 개의 매개변수 카멜레온 모델을 순수 텍스트 모델인 Llama-2보다 5배 많은 10조 개의 멀티모달 토큰으로 성공적으로 훈련했습니다. 이에 비해 언어 모델인 Llama-3은 15조 개의 텍스트 토큰으로 학습되었으므로 향후 버전의 카멜레온은 훨씬 더 많은 토큰으로 학습될 가능성이 높습니다.



광범위한 평가를 통해 카멜레온은 다양한 작업에 다용도로 사용할 수 있는 모델이라는 것이 입증되었습니다. 340억 개에 달하는 이 모델은 시각적 질문 답변과 이미지 캡션에서 최고의 성능을 달성하여 Flamingo, IDEFICS, Llava-1.5와 같은 모델을 능가하고 GPT-4V에 근접합니다. 동시에 순수 텍스트 작업에서도 경쟁력을 유지하여 상식 및 독해 테스트에서 Mixtral 8x7B 및 Gemini-Pro와 유사한 성능을 달성했습니다.


그러나 가장 흥미로운 점은 카멜레온이 혼합 모드 추론 및 생성에서 제공하는 완전히 새로운 기능입니다. 한 테스트에서 메타는 개방형 질문, 즉 이미지와 텍스트가 혼합된 질문에 대한 혼합 모드 응답의 품질 측면에서 인간 평가자가 Gemini-Pro 및 GPT-4V보다 340억 모델을 더 선호한다는 것을 보여주었습니다. 또한 텍스트와 생성된 이미지가 포함된 질문에 대한 답변도 가능합니다.



곧 GPT-4 Omni에 대한 해답을 제시할 수 있는 메타


OpenAI가 최근 선보인 GPT-4 omni(GPT-4o)의 구체적인 아키텍처에 대해서는 알려진 바가 거의 없지만, 이 회사도 비슷한 접근 방식을 추구하고 있을 가능성이 높습니다. 그러나 카멜레온과 달리 OpenAI의 모델은 오디오를 직접 통합하고, 규모가 훨씬 더 크며, 일반적으로 훨씬 더 많은 데이터로 학습합니다.

메타의 AI 연구원인 아르멘 아가자얀은 카멜레온은 메타의 다음 패러다임에 대한 지식을 공유하기 위한 작업의 시작에 불과하다고 말합니다: "초기 융합" 멀티모달 모델은 미래입니다. 연구원은 또한 이 모델이 5개월 전에 훈련되었으며 그 이후로 팀이 큰 진전을 이루었다고 언급했습니다. 추가 모달리티를 통합하는 것도 그 중 하나가 될 수 있습니다. 메타의 CEO인 마크 저커버그는 이미 미래를 위한 멀티모달 모델을 발표했습니다.


카멜레온은 아직 사용할 수 없습니다.