기존에는 STT -> LLM -> 생성답변 -> TTS 이런 식으로 서비스를 했었던 것 같은데요. TTS모델에서 정확한 음성을 따려면 적어도 문장 단위로 던져야 자연스러운 음성으로 반환됩니다. 


그런데 LLM 스트리밍을 사용하게되면, 토큰 단위로 TTS를 하게 되다보니 단어, 단어 말하는 것처럼 보이고, 중간에 토큰이 늦게오면 음성이 끊어진 것 처럼 부자연스럽다보니, 적어도 문장단위가 모은 후 TTS를 하거나 아니면 그냥 LLM 응답이 끝났을 때, TTS 처리를 했었는데요.


gpt-4o 음성 대화 기능을 보고 실제로 사용해보니, 이건 위와 같은 방식이 아니고 실시간으로 바로바로 음성으로 변환해주는 느낌이 들었습니다. 그럼에도 음성이 너무나도 자연스럽구요.


gpt-4o가 음성, 이미지, 텍스트 모든 걸 처리할 수 있다고 하던데 그렇다면, STT나 TTS 없이도 gpt-4o 모델 자체가 알아서 음성을 텍스트로 바꾸고, 텍스트를 음성으로 바꿔서 전달해준다는 건가요?