gpt-4o에서 음성 입력을 실시간으로 음성으로 반환해주던데 어떤 기술 일까요? - Ai 언어모델 로컬 채널

Ai 언어모델 로컬 채널

알림 알림 중 알림 취소

구독자 3449명 알림수신 170명 @바바리맨

제한없는 언어모델을 위한 채널

일반 gpt-4o에서 음성 입력을 실시간으로 음성으로 반환해주던데 어떤 기술 일까요?

ㅇㅇ (61.100)

추천 1 비추천 0 댓글 10 조회수 830 작성일 2024-05-17 06:37:27

https://arca.live/b/alpaca/106408616

기존에는 STT -> LLM -> 생성답변 -> TTS 이런 식으로 서비스를 했었던 것 같은데요. TTS모델에서 정확한 음성을 따려면 적어도 문장 단위로 던져야 자연스러운 음성으로 반환됩니다.

그런데 LLM 스트리밍을 사용하게되면, 토큰 단위로 TTS를 하게 되다보니 단어, 단어 말하는 것처럼 보이고, 중간에 토큰이 늦게오면 음성이 끊어진 것 처럼 부자연스럽다보니, 적어도 문장단위가 모은 후 TTS를 하거나 아니면 그냥 LLM 응답이 끝났을 때, TTS 처리를 했었는데요.

gpt-4o 음성 대화 기능을 보고 실제로 사용해보니, 이건 위와 같은 방식이 아니고 실시간으로 바로바로 음성으로 변환해주는 느낌이 들었습니다. 그럼에도 음성이 너무나도 자연스럽구요.

gpt-4o가 음성, 이미지, 텍스트 모든 걸 처리할 수 있다고 하던데 그렇다면, STT나 TTS 없이도 gpt-4o 모델 자체가 알아서 음성을 텍스트로 바꾸고, 텍스트를 음성으로 바꿔서 전달해준다는 건가요?

댓글 [10] 글쓰기

2024-05-17 06:40:54 답글

텍스트를 음성으로 변환한게 아닌 애초에 출력을 음성으로 한 것.
따라서, 출력 속도가 1배이상이라면 문제 없이 출력가능

펼쳐보기▼

2024-05-17 06:46:21 답글

역시 그렇군여.. 음성을 입력받고 출력도 음성으로.. omni가 맞긴맞네요

펼쳐보기▼

2024-05-17 06:47:39 답글

*수정됨

end to end

펼쳐보기▼

2024-05-17 06:48:04 답글

음성 토큰 입력 음성 토큰 출력

펼쳐보기▼

2024-05-17 06:50:43 답글

이미 있던 좋은 파이프라인을 증류해 end to end 모델을 만든겁니다
이는 높은 반응속도를 이끌어내는데 핵심이지만, 모델의 구조 자체가 최적화되어있진 않으므로(음성 합성 기술에는 토큰만으로 해결되기엔 조금 어렵다고 생각합니다) 약간의 트레이드오프가 있습니다.
단, 오픈ai는 이미 좋은 데이터셋 등을 가지고 있으므로 거의 완벽하게 들립니다.

펼쳐보기▼

2024-05-17 07:10:35 답글

트랜스포머에 음성 때려박은 듯 해요

펼쳐보기▼

ㅇㅇ (222.101)

2024-05-17 08:48:31 삭제 수정 답글

아.. STS 라는건가 그러면..

펼쳐보기▼

2024-05-17 09:34:43 답글

엔드투엔드로 오디오에서 오디오로 바로 만든듯? 그정도 속도 나오려면

펼쳐보기▼

ㅇㅇ (210.91)

2024-05-20 00:27:38 삭제 수정 답글

그냥 stt로 말한거 다 텍스트로 변환 후 모델에 넣은 뒤 빠져나온 텍스트를 tts 변환한게 아닐까요?
떨어지는 토큰속도로 어색해진다는건 반대로 토큰속도가 떨어지지 않으면 정상적으로 들린다는거니까요.
특히 오픈AI에서 예전에 오픈소스로 공개했던 whisper라는 자사 라이브러를 쓰면 되서 더 편했을 겁니다.
이효리가 광고했던 스픽(speak)도 오픈ai의 whisper api를 썼다하더군요

펼쳐보기▼

2024-05-22 02:34:55 답글

open ai에서 sts라고 했습니다. 목소리의 감정, 상황, 톤등을 분석하는것 보면 sts가 맞습니다. 아직 제대로된 sts는 미 업뎃이라고 합니다.

펼쳐보기▼

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 질문 정보 학습 자료 자작모델 스터디 공지 운영 공모

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 29922042

공지 Ai 언어모델 로컬 채널 이용규정

바바리맨 2023.04.18 6119

공지 뉴비에게 도움 되는 글 모음

바바리맨 2023.04.18 27660

공지 언어모델 관련 정보취득 /무료체험 가능 사이트

바바리맨 2023.04.18 9130

공지 여러분의 학습에 도움을 줄 수 있는 하드웨어 지원

바바리맨 2023.08.01 5257

공지 신문고

바바리맨 2023.04.18 2301

숨겨진 공지 펼치기(1개)

4274 일반 LLMOps로 살아남을 수 있을까? [10]

maywell 2024.06.02 626 15

4273 일반 라마3-v 8b모델 공개했네요 [2]

ㅇㅇ 2024.06.01 458 1

4272 질문 LoRA 제작 두번 실패하면서 모은 질문들 [6]

세법상법 2024.06.01 290 3

4271 일반 command r plus 4bit + 3090 4way 후기 [6]

감별사 2024.06.01 422 5

4270 일반 특징 조작 관련 라마 모델 몇 가지 및 기술(Orthogonalization, ReFT, 우울한 라마, 금문교 라마) [3]

ㅇㅇ 2024.06.01 492 14

4269 일반 일지

세법상법 2024.05.31 199 0

4268 일반 vast.ai + command r plus 4bit + a4000 * 8 [8]

감별사 2024.05.31 294 5

4267 일반 오늘은 다른 방식으로 굽는 중

세법상법 2024.05.31 210 0

4266 질문 데이터 형식 질문

ㅇㅇ 2024.05.31 174 0

4265 일반 rtx5090 vram 28기가 루머 [18]

whs 2024.05.31 714 2

4264 일반 4060ti 16g 4way 로는 command r plus 는 좀 힘드네요 [12]

감별사 2024.05.30 447 3

4263 일반 runpod tinyllama 야인시대 LoRA 시도(실패) [2]

세법상법 2024.05.30 326 4

4262 일반 gpu 안좋은 분들 뭐 씀? [9]

세법상법 2024.05.30 699 0

4261 일반 aya-23-35B 6.0bpw + 아프로디테로 "소설가가 되자" 일한 번역 [17]

bedovyy 2024.05.30 947 16

4260 일반 하 이직하고 오랜만에 접속하니 세계가 바뀌어 있네요... [10]

lIlBrother 2024.05.30 877 5

4259 정보 Mistral의 첫 코딩 AI, Codestral 발표 [3]

Thomas_Shelby 2024.05.29 670 5

4258 정보 MS, 미세조정 기술 '로라' 개선한 '모라' 공개 [3]

ㅇㅇ (211.214) 2024.05.29 1062 17

4257 일반 역시 Kiqu 70B는 맛있네요 [2]

용바오 2024.05.29 658 0

4256 일반 (리눅스) 수정된 nvidia 드라이버로 3090/4090 에서 P2P를 활성화해보자.

bedovyy 2024.05.29 436 5

4255 일반 혹시 채널발 '한국어' 정보글 집대성 해볼 생각 없음? [26]

세법상법 2024.05.29 1087 13

전체글 개념글

사용하고 계신 브라우저가 시간대 설정을 지원하지 않으므로 GMT 시간대가 적용됩니다.