한국 유튜브 영상 1.1만개 가량을 transcription한 데이터셋입니다.

WhisperX를 사용했습니다. (large-v3 이용)

a100 8대에서 하루에 2만개 정도 transcription 됩니다.
동영상 목록을 받아오는 구글 API가 ratelimit 계속 걸려서 많이 못 만들었습니다.

그 후 WizardLM2 8x22b 사용해서 augment 진행했습니다.

https://huggingface.co/datasets/maywell/ko_youtube_transcription_sample