GPT-4o에는 OpenAI가 언급하지 않은 몇 가지 트릭이 있습니다.

https://the-decoder.com/gpt-4o-has-a-few-tricks-up-its-sleeve-that-openai-hasnt-talked-about/
https://openai.com/index/hello-gpt-4o/

OpenAI의 발표에서는 주로 음성 및 오디오 기능에 초점을 맞추었지만, 이 모델의 진정한 차별점은 멀티모달 기반에 있습니다.

GPT-4o는 텍스트, 오디오, 이미지, 비디오의 모든 조합을 입력으로 받아들이고 텍스트, 오디오, 이미지의 모든 조합을 출력으로 생성할 수 있습니다.

GPT-4o가 공개된 후 OpenAI는 블로그에서 이러한 기능 중 일부를 시연했습니다.

예를 들어, 이 모델은 시각적 내러티브를 생성할 수 있습니다. 한 예로, 로봇이 타자기로 일기장을 여러 개 작성하는 모습을 볼 수 있습니다. 이 이야기는 타자기 종이에 쓰여지고 이미지로 표시됩니다. 모델은 이 장면에서 한 걸음 더 나아가 로봇이 자신이 쓴 내용이 마음에 들지 않아 페이지를 찢는 모습을 보여줄 수 있습니다.

이 모델은 영화나 스토리를 위한 세밀하고 일관된 캐릭터 디자인도 만들 수 있습니다. 한 데모에서는 야구를 하고, 프로그래밍을 하고, 자전거를 타고, 요리를 하는 로봇 기어리(Geary)를 만들었습니다.

또 다른 예로 우체국 직원 샐리는 편지를 배달하다가 지구상에서 가장 위험한 종 중 하나인 골든 리트리버가 쫓아오는 바람에 당황합니다.

GPT-4o는 또한 다양하고 창의적인 타이포그래피 스타일을 생성할 수 있습니다. 예를 들어 시를 디자인된 종이로 직접 출력하거나 새로운 글꼴을 개발할 수도 있습니다.

또 다른 예로 2023년 GPT-4 출시를 기념하기 위해 발행된 기념 주화와 같은 기념 주화를 GPT-4o로 디자인할 수 있습니다. 미래 지향적이거나 오래된 빅토리아 시대 서체도 지원됩니다.

GPT-4o는 OpenAI 로고나 조각품과 같은 오브젝트의 3D 렌더링을 생성하여 다양한 각도에서 표시할 수도 있습니다.

마지막으로, 데모는 모델이 이미지의 인과 관계를 어느 정도 이해하는 것으로 보입니다. 이 과제는 문자 "G", "P", "T"가 서로 겹쳐진 세 개의 큐브를 시각화하는 것입니다. 문자(G, P, T)의 순서와 색상(빨강, 파랑, 초록)의 순서가 정확해야 합니다.

이 테스트는 오랫동안 이미지 생성기의 세계 이해도를 평가하는 벤치마크로 여겨져 왔으며, GPT-4o는 이번 데모에서 색상 순서가 약간 불일치한 단 한 가지 예(6/7)를 제외하고는 여러 번의 테스트에서 안정적으로 통과한 것으로 보입니다.

다른 예로는 사물에 로고 배치하기, 오디오 및 비디오 자료 전사 및 요약하기, 사람 사진을 영화 포스터나 만화 스타일과 같은 새로운 상황으로 변형하기 등이 있습니다.