https://the-decoder.com/dall-e-4-could-be-much-better-than-dall-e-3/

OpenAI의 공동 창립자인 Greg Brockman은 이 모델의 이미지 생성 기능의 잠재력을 보여주는 이미지를 X에서 GPT-4o로 생성한 이미지를 공유했습니다.


이 이미지는 사실적으로 보이며, 패널의 손글씨 텍스트는 문법적으로 정확하고 일관성이 있습니다. 브록맨은 프롬프트가 무엇인지 밝히지 않았지만, 패널 캡션이 프롬프트의 일부일 가능성이 높습니다.


AI 이미지 생성기인 Ideogram은 이미지 모델이 텍스트를 정확하게 렌더링할 수 있음을 증명하지만, 아직 Brockman이 이미지에서 보여준 복잡성에는 미치지 못합니다. DALL-E 3와 Midjourney는 텍스트를 거의 표시할 수 없습니다.



GPT-4o는 이미지 모델에 연결된 언어 모델인 DALL-E 3을 사용하는 GPT-4와는 달리 처음부터 멀티모달을 위해 학습되었기 때문에 이러한 종류의 이미지 렌더링 기능을 갖추고 있습니다.


GPT-4o에는 다른 여러 가지 멀티모달 기능이 있습니다. 텍스트, 오디오, 이미지, 비디오를 입력으로 받아들이고 어떤 조합으로도 텍스트, 오디오, 이미지를 출력으로 생성할 수 있습니다. 이를 통해 시각적 스토리, 세밀하고 일관된 캐릭터 디자인, 창의적인 타이포그래피, 3D 렌더링까지 생성할 수 있습니다.



오디오 및 이미지와 같은 멀티모달 기능은 앞으로 몇 달에 걸쳐 단계적으로 도입될 예정입니다. 개별 기능은 아직 레드팀과 추가 안전 테스트가 진행 중입니다. OpenAI가 추가 기능을 DALL-E처럼 별도의 브랜드로 출시할지, 아니면 단순히 GPT-4o의 기능으로 출시할지는 아직 알려지지 않았습니다.


작은 일화 하나: OpenAI는 출시 당시 GPT-4o에 대한 홍보를 제대로 하지 않아 많은 사람들이 새로운 오디오 기능이 언어 모델뿐만 아니라 ChatGPT에서도 이미 사용 가능하다고 믿었습니다. 이후 OpenAI의 CEO인 샘 알트먼은 이 널리 퍼진 오해를 바로잡아야 했습니다.


하지만 이 프레젠테이션 덕분에 일부 사용자들은 몇 달 전부터 사용 가능했던 ChatGPT 오디오 기능을 OpenAI가 시연하는 새로운 오디오 기능으로 착각하고 소셜 미디어에 "차세대 인공지능"에 대한 열광적인 시연을 올렸습니다. 이는 인플루언서들을 앞지르는 AI의 발전입니다.

https://x.com/gdb/status/1790869434174746805

https://x.com/sama/status/1790817315069771959