한국 유튜브 transcription 데이터셋 - Ai 언어모델 로컬 채널

Ai 언어모델 로컬 채널

알림 알림 중 알림 취소

구독자 3449명 알림수신 170명 @바바리맨

제한없는 언어모델을 위한 채널

일반 한국 유튜브 transcription 데이터셋

추천 55 비추천 2 댓글 11 조회수 1864 작성일 2024-05-17 06:45:10

https://arca.live/b/alpaca/106409170

한국 유튜브 영상 1.1만개 가량을 transcription한 데이터셋입니다.

WhisperX를 사용했습니다. (large-v3 이용)

a100 8대에서 하루에 2만개 정도 transcription 됩니다.
동영상 목록을 받아오는 구글 API가 ratelimit 계속 걸려서 많이 못 만들었습니다.

그 후 WizardLM2 8x22b 사용해서 augment 진행했습니다.

https://huggingface.co/datasets/maywell/ko_youtube_transcription_sample

댓글 [11] 글쓰기

2024-05-17 06:52:27 답글

와 synthetic 아닌 데이터셋이다!

펼쳐보기▼

2024-05-17 06:53:06 답글

무한한 개추

펼쳐보기▼

ㅇㅇ (210.91)

2024-05-17 07:57:16 삭제 수정 답글

눈물의 추천, 마침 첫번째 row부터 생활 코딩이네요

펼쳐보기▼

2024-05-17 09:02:56 답글

2024-05-17 09:11:06 답글

llm 말고도 너무 활용도 높은 데이터 같네요

펼쳐보기▼

2024-05-17 09:11:18 답글

2024-05-17 09:26:49 답글

hkhk

2024-05-17 09:50:15 답글

수고 많으셨습니다. 원기옥 프로젝트로 여러 계정이 나눠서 스크립트 긁어모으고 추출하기 하면 더 많이 모을 수 있을거 같은데..

펼쳐보기▼

ㅇㅇ (39.7)

2024-05-18 03:16:07 삭제 수정 답글

오호

펼쳐보기▼

2024-05-19 13:11:17 답글

용바오 (1.235)

2024-05-21 00:59:13 삭제 수정 답글

잘먹겠습니다

펼쳐보기▼

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 질문 정보 학습 자료 자작모델 스터디 공지 운영 공모

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 29941435

공지 Ai 언어모델 로컬 채널 이용규정

바바리맨 2023.04.18 6119

공지 뉴비에게 도움 되는 글 모음

바바리맨 2023.04.18 27662

공지 언어모델 관련 정보취득 /무료체험 가능 사이트

바바리맨 2023.04.18 9132

공지 여러분의 학습에 도움을 줄 수 있는 하드웨어 지원

바바리맨 2023.08.01 5258

공지 신문고

바바리맨 2023.04.18 2302

숨겨진 공지 펼치기(1개)

581 일반 LLMOps로 살아남을 수 있을까? [10]

maywell 2024.06.02 672 15

580 일반 특징 조작 관련 라마 모델 몇 가지 및 기술(Orthogonalization, ReFT, 우울한 라마, 금문교 라마) [3]

ㅇㅇ 2024.06.01 521 14

579 일반 (성공) Aphrodite + 160GB + 4060ti * 4 + llama 3 70b [23]

감별사 2024.05.29 1071 11

578 일반 aya-23-35B 6.0bpw + 아프로디테로 "소설가가 되자" 일한 번역 [17]

bedovyy 2024.05.30 957 16

577 정보 MS, 미세조정 기술 '로라' 개선한 '모라' 공개 [3]

ㅇㅇ (211.214) 2024.05.29 1068 17

576 일반 혹시 채널발 '한국어' 정보글 집대성 해볼 생각 없음? [26]

세법상법 2024.05.29 1089 13

575 일반 고민끝에 llm 개인 연구용으로 m2 mac studio ultra 구입했습니다. [30]

KevinRyu 2024.05.25 1488 13

574 스터디 llama2.c 모델 학습 결과 [2]

zzzzz5 2024.05.23 891 11

573 스터디 딥러닝모델의 망각증상 (Catastrophic Forgetting)에 대한 고찰 [13]

hkhk 2024.05.22 1313 33

572 스터디 TinyStories-Korean 모델 학습 결과 [6]

hkhk 2024.05.22 960 20

571 일반 이번에 업데이트된 chatgpt 4o진짜 코딩할때 짱이네요. [6]

끼랑까랑 2024.05.21 1399 15

570 일반 phi-3 small/medium 나왔네요 [15]

딸기맛봇치 2024.05.21 1533 17

569 정보 Augmentoolkit - 생 텍스트를 넣으면 instruct 데이터셋을 만들어주는 툴킷 [6]

hkhk 2024.05.16 929 14

568 일반 메타에서 gpt-4v와 같은 Mixed-Modal 발표했네요 [10]

그래요 2024.05.17 1508 18

567 일반 한국 유튜브 transcription 데이터셋 [11]

maywell 2024.05.17 1865 53

566 정보 LLaMA-3 8B, 70B 모델의 양자화 단계별 MMLU성능 비교표 [11]

hkhk 2024.05.16 1807 20

565 스터디 잔차연결(residual connection or skip connection) 에 대한 발상의 전환 [6]

hkhk 2024.05.16 1038 35

564 일반 aka Llama-3 70B 한국어 [7]

zzzzz5 2024.05.13 1954 15

563 일반 굉장히 저렴한 DeepSeek-V2 후기 [6]

감별사 2024.05.11 1437 12

전체글 개념글

사용하고 계신 브라우저가 시간대 설정을 지원하지 않으므로 GMT 시간대가 적용됩니다.