https://the-decoder.com/gpt-4o-has-a-few-tricks-up-its-sleeve-that-openai-hasnt-talked-about/
https://openai.com/index/hello-gpt-4o/

OpenAI의 발표에서는 주로 음성 및 오디오 기능에 초점을 맞추었지만, 이 모델의 진정한 차별점은 멀티모달 기반에 있습니다.


GPT-4o는 텍스트, 오디오, 이미지, 비디오의 모든 조합을 입력으로 받아들이고 텍스트, 오디오, 이미지의 모든 조합을 출력으로 생성할 수 있습니다.


GPT-4o가 공개된 후 OpenAI는 블로그에서 이러한 기능 중 일부를 시연했습니다.


예를 들어, 이 모델은 시각적 내러티브를 생성할 수 있습니다. 한 예로, 로봇이 타자기로 일기장을 여러 개 작성하는 모습을 볼 수 있습니다. 이 이야기는 타자기 종이에 쓰여지고 이미지로 표시됩니다. 모델은 이 장면에서 한 걸음 더 나아가 로봇이 자신이 쓴 내용이 마음에 들지 않아 페이지를 찢는 모습을 보여줄 수 있습니다.



이 모델은 영화나 스토리를 위한 세밀하고 일관된 캐릭터 디자인도 만들 수 있습니다. 한 데모에서는 야구를 하고, 프로그래밍을 하고, 자전거를 타고, 요리를 하는 로봇 기어리(Geary)를 만들었습니다.



또 다른 예로 우체국 직원 샐리는 편지를 배달하다가 지구상에서 가장 위험한 종 중 하나인 골든 리트리버가 쫓아오는 바람에 당황합니다.



GPT-4o는 또한 다양하고 창의적인 타이포그래피 스타일을 생성할 수 있습니다. 예를 들어 시를 디자인된 종이로 직접 출력하거나 새로운 글꼴을 개발할 수도 있습니다.



또 다른 예로 2023년 GPT-4 출시를 기념하기 위해 발행된 기념 주화와 같은 기념 주화를 GPT-4o로 디자인할 수 있습니다. 미래 지향적이거나 오래된 빅토리아 시대 서체도 지원됩니다.



GPT-4o는 OpenAI 로고나 조각품과 같은 오브젝트의 3D 렌더링을 생성하여 다양한 각도에서 표시할 수도 있습니다.



마지막으로, 데모는 모델이 이미지의 인과 관계를 어느 정도 이해하는 것으로 보입니다. 이 과제는 문자 "G", "P", "T"가 서로 겹쳐진 세 개의 큐브를 시각화하는 것입니다. 문자(G, P, T)의 순서와 색상(빨강, 파랑, 초록)의 순서가 정확해야 합니다.


이 테스트는 오랫동안 이미지 생성기의 세계 이해도를 평가하는 벤치마크로 여겨져 왔으며, GPT-4o는 이번 데모에서 색상 순서가 약간 불일치한 단 한 가지 예(6/7)를 제외하고는 여러 번의 테스트에서 안정적으로 통과한 것으로 보입니다.



다른 예로는 사물에 로고 배치하기, 오디오 및 비디오 자료 전사 및 요약하기, 사람 사진을 영화 포스터나 만화 스타일과 같은 새로운 상황으로 변형하기 등이 있습니다.



풍부한 기능을 통해 GPT-4o는 텍스트, 이미지, 오디오, 궁극적으로는 비디오를 이해하고 생성하는 omni 모델을 향한 한 걸음임을 분명히 알 수 있습니다.


Omni 개발 책임자인 프라풀라 다리왈은 Omni를 "최초의 네이티브 완전 멀티모달 모델"이라고 설명하며, 그 도입을 "조직 차원의 거대한 노력"이라고 설명합니다.


새로운 토큰화는 이 모델이 처음부터 새로 개발되었음을 나타냅니다. GPT-4o는 현재 독립형 모델로 출시된 GPT-5의 선구자적 역할을 할 수 있습니다. 추측에 따르면 Omni는 2022년부터 개발 중이었습니다.


개별 멀티모달 기능이 언제, 어느 정도까지 ChatGPT 또는 API를 통해 제공될지, 예를 들어 3D 또는 이미지 생성을 위한 독립형 모델과 어떻게 비교될지는 아직 지켜봐야 합니다.


OpenAI는 "GPT-4o는 이러한 모든 모달리티를 결합한 최초의 모델이기 때문에 이 모델이 할 수 있는 일과 그 한계를 탐색하는 데 있어 아직 시작에 불과합니다."라고 말합니다.


OpenAI는 반복적인 출시를 약속하며, 오디오 기능을 먼저 선보일 예정입니다.