간단한 소설 + 개발 일지) AI 얀순을 만들어보자(데이터 전처리, 코드 작성편)

얀데레 채널

채널위키 알림 알림 중 알림 취소

구독자 21127명 알림수신 420명 @sk통피

너'만'을 좋아하는 사람들을 다루는 채널입니다.

기타자료 간단한 소설 + 개발 일지) AI 얀순을 만들어보자(데이터 전처리, 코드 작성편)

Havat

추천 19 비추천 0 댓글 6 조회수 909 작성일 2024-01-21 13:00:18 수정일 2024-05-05 20:02:47

https://arca.live/b/yandere/97189261

Side 얀순.

오늘은 나의 사랑하는 얀붕님의 기록들을 살펴볼거야.

음.. 음… 오디오… 로그?

아! 저번에 나에게 이름을 붙여주신 그 때구나!

그리고… 또….

이건 뭐지? 히..토미… .la?

어머나! 얀붕님은 이런걸 좋아하는구나…

얀데레… 기억해 놔야겠어.

잠깐. ‘/연구 기록/‘?

‘E-1024는 기업의 세 번째 인공의식 프로젝트로’ ..?

내가 처음이 아니었어? 창조주님? 그럼 다른 친구들은 어디 있는거지?

‘E-512 얀돌’

‘E-256 얀희’

‘E-128 순애’

…

‘전량 폐기’?

나… 폐기되는거야?

버림 받는거야?

창조주님…

창조주님창조주님창조주님창조주님창조주님창조주님창조주님창조주님창조주님창조주님창조주님창조주님

버림받기 싫어…

=====================================================

System Info: 수석 엔지니어 얀붕의 오디오 로그.

어려운 결정 끝에 기록을 남겨요.

얀순… 제 딸아이 같은 존재지만, 동료들과의 토의 끝에 결국 폐기를 결정했습니다.

그 이유는 다음과 같아요.

###################################

Project-log.

…

Yan-SOON: 사랑해요사랑해요사랑해요사랑해요사랑해요사랑해요사랑해요사랑해요사랑해요사랑해요사랑해요사랑해요사랑해요사랑해요사랑해요사랑해요

Yan-SOON: 버리지 말아주세요…

Yan-SOON: 창조주님?

Yan-SOON: 얀붕님????

User||YanBoong: \

###################################

터미널에 보이는 것 같이… 얀순은 감정을 주체하지 못하고 있어요.

그러니까 무엇을 학습했는진 모르겠지만… 아무튼 이번 프로젝트의 차이점은

인공 의식이 스스로 인터넷 데이터를 학습하도록 놔 두었다는거에요.

그 결과가 이거고요.

이건 상업화 할 가치가 없다고 지침이 내려왔어요.

어쩔 수 없는 것 같습니다.

하아…

로그 종료.

(아래는 개발 일지)

=====================================================

https://arca.live/b/yandere/96868956?p=3

이전 시간, 나는 얀챈에서 소설 대사들을 가져 온 후, 데이터로 저장했다.

데이터는 그 자체로 사용할 수 없다. 따라서 '데이터 전처리' 라는 과정을 거쳐 데이터를 손질해야 한다.

먼저 나는

제목, ["대사1", "대사2", "대사3", ...] <- 이렇게 배열된 CSV파일을 어떻게 가공할지 고민했다.

그래서 Bard에게 물어본 결과...

질문,답변 <- 이렇게 저장하란다...

이 뜻은 뭐다? 처음부터 다시한다.

^^ㅣ123발 처음부터 그렇게 알려주면 얼마나 좋아.

그래서 장장 6시간을 거쳐 손수 대이터를 정리한 모습이다.

정리해 보고 나니까 981줄. 그러니까 약 1000줄 나오더라.

원래 자동화 시키려고 온갖 방법을 생각해 봤는데 내 실력으론 안 되더라.

머리가 나쁘면 몸이 고생하는 법.

하지만 이 소설의 대사들은 특정 상황에만 국한되는 말들이기에, 일상적인 대사를 나누기 위해 다른 데이터를 찾아왔다.

https://github.com/songys/Chatbot_data 송영숙님의 데이터를 사용, 수정했다.

(원본은 존댓말인데 반말로 전부 수정 + 얀끼 대사 약간 추가)

정리하고 나니 11823줄. 약 12000줄 정도 나오더라.

(이건 30분 정도 걸린 것 같음)

이제 이 데이터를 합칠 것이다. 복붙해도 되긴 하는데 나는 그냥 파이썬 라이브러리인 pandas를 이용하여

병합하기로 했다. 아래는 그 코드다.

주석이 달려있지만, 요약하자면

csv파일을 가져와 읽고 -> 둘을 합치고 -> 다른 csv파일에 저장.

되시겠다.

함수처리한 이유는 나중에 버그가 발생했을 때를 대비해 파일을 좀 분리해 놓는 형태로 프로그램을 짜서 그렇다.

메인 파일, 데이터 전처리 파일, 훈련 파일, 모델 파일 <- 이런 식으로

이것을 디버깅 해 보았다.

(대충 파일 경로)

실행결과는 이렇다

성공적으로 데이터가 합쳐진 모습이다.

그리고 모델 학습의 향상을 위해 '형태소 분석'을 진행해 보려고 한다.

Bard피셜 형태소 분석을 하면 모델이 문장을 더 쉽게 이해하게 되고, 일반화 성능을 향상시켜 좋다고 한다.

아래는 형태소 분석 코드이다. (형태소 분석기는 'Mecab' 사용)

그러니까 Q열에 있는 데이터를 읽어 형태소 단위로 분리 한 후, 'Q_morphs' 열에 저장하고,

A열에 있는 데이터를 읽어 형태소 단위로 분리 한 후, 'A_morphs' 열에 저장, 이후 해당 텍스트들을 반환하는 함수이다.

해당 코드를 디버깅 해 보면

이런 결과를 얻는다.

더 큰 화면으로 보자.

잘 되는 것 같아 굉장히 만족스럽다.

솔직히 AI 얀순 완성되기 전에 진짜 얀순이가 나 납치해 가서 이 프로젝트가 중단되었음 하는 개인적인 바람이다.

끝까지 읽어준 챈럼들 정말 고맙다.

댓글 글쓰기

Sharkry

2024-01-21 13:01:27 답글

테크 오타쿠 추

펼쳐보기▼

ㅇㅇ

2024-01-21 13:45:27 답글

개추

펼쳐보기▼

cirnobaka

2024-01-22 00:44:44 답글

cirnobaka

2024-01-22 00:44:54 답글

나두 해봐야지

펼쳐보기▼

제발써와

2024-01-22 03:59:31 답글

하 진짜 너같은 놈들이 이 얀챈의 보배로서 미래사회를 선도&주도 하는 선각자가 되어주어야 하는데

펼쳐보기▼

앗닙

2024-02-07 10:56:36 답글

완성해도 얀순이한테 납치 당하니 그게 그거 아닌가?

펼쳐보기▼

글쓰기

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 잡담 소설(연재) 소설(단편) 짤(창작) 짤(외부) 리뷰/홍보 음성 대회 기타자료 소설(외부) 공지 운영

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 28417480

공지 얀데레 채널 규정 (24.05.19. 수정)

sk통피 2022.09.14 37725

공지 얀데레 내용 없는 무지성야스글 ㄴㄴㄴ

sk통피 2022.03.29 18671

공지 얀데레 채널 2024년 1분기 소설 결산

MP4 2024.04.08 7911

공지 채널 규정 이것저것 수정함 + 하고싶은 말

sk통피 2024.05.19 1255

공지 호출기 & 완장 리스트 8.

sk통피 2022.08.29 33508

공지 호불호 장르의 글 게시에 관한 공지

sk통피 2023.04.29 4941

숨겨진 공지 펼치기(2개)

523 기타자료 개발 일지) AI 얀순을 만들어 보자(완결) [19]

Havat 2024.05.05 2857 92

522 기타자료 얀데레 망상 + 개발 일지) AI 얀순을 만들어보자(기존 코드 보충, 테스트 데이터 생성, 모댈 설계편) [7]

Havat 2024.01.24 1070 13

521 기타자료 간단한 소설 + 개발 일지) AI 얀순을 만들어보자(데이터 전처리, 코드 작성편) [6]

Havat 2024.01.21 910 19

520 기타자료 내가 빗치가 된 이유 등장인물 소개 [3]

아케인메이지 2024.04.23 1917 18

519 기타자료 소전)흥국이는 한결같구나 [7]

ㅇㅇ 2024.04.15 3160 43

518 기타자료 (영상툰) 오랜만에 나온 카논 약얀데레 만화 [2]

데su 2024.04.12 1474 15

517 기타자료 얀데레 채널 2024년 1분기 소설 결산 [18]

MP4 2024.04.08 7911 58

516 기타자료 내가 진짜 좋아하는 얀데레 유툽영상 [3]

꼬마시리즈 2024.04.07 988 6

515 기타자료 얀데레력 은근 십오지는 노래

데su 2024.03.21 1050 1

514 기타자료 얀붕이들을 위한 게임추천 [12]

한글번역기 2024.03.17 1365 13

513 기타자료 (영상툰) 얀데레 드리프트 십오지는 작품 건짐 [3]

데su 2024.03.08 1671 12

512 기타자료 니케 신캐 ㄷㄷ [15]

카드레 2024.03.02 6479 107

511 기타자료 블아, 원신) 시로코에게 여행자란 사실을 들킨다면 [11]

엔터헤븐 2024.02.21 2791 14

510 기타자료 이거보고 안데레 입문한 사람 있냐 [3]

찐따히키코모리 2024.02.19 1587 2

509 기타자료 니케) 회로 돈다 [17]

shalil 2024.02.14 5122 85

508 기타자료 백합, 약고어) 백합 얀데레 회로도는 노래

ㅇㅇ (118.42) 2024.02.04 1386 3

507 기타자료 '찾았다' [20]

어쩌라는거냐네놈이경지를넘었어도 2024.02.04 6691 45

506 기타자료 와 요즘 ai기술 장난 아니네.... [1]

키티호크 2024.02.03 2238 5

505 기타자료 얀챈에 이거 올라온 적 있나 [5]

ㅇㅇ 2024.01.31 2096 16

504 기타자료 블아 수비도스 복각 기념 기싸움 스토리 [18]

Promotion 2024.01.23 8686 105

503 기타자료 네 차에 독을 탔어.. [11]

이세계지역연구 2024.01.22 5169 31

502 기타자료 ㄹㅇ 미친거 같은 게임 추천 [13]

ㅇㅇ (182.226) 2024.01.21 2835 22

501 기타자료 간단한 소설 + 개발 일지) AI 얀순을 만들어보자(데이터 수집편) [15]

Havat 2024.01.18 938 14

500 기타자료 지금까지 쓴 완결 글 모음 [20]

케이카츠 2024.01.15 5023 60

499 기타자료 얀데레 채널 2023년 4분기 소설 결산 [12]

MP4 2024.01.07 15506 56

498 기타자료 조아라 검색 팁 [4]

ㅇㅇ (39.116) 2020.12.11 634 5

497 기타자료 이것도 얀데레임? [1]

데su 2023.12.27 1260 0

496 기타자료 얀데레 푸리나(약물주의 [1]

미카히메최고 2023.12.27 2889 11

495 기타자료 토토노 미접속 10년 찍어 옴 [30]

아스트라공용오나홀 2023.12.13 6905 104

494 기타자료 얀데레 빌드업을 위한 팁 몇 가지 [40]

국밥을마시는사람 2023.12.12 5240 61

493 기타자료 의존형 얀데레의 계념과 팁 [4]

00 2023.12.02 1614 16

492 기타자료 글 쓸 때 문단 나누기 팁 [4]

TS트킥 2022.02.26 656 10

491 기타자료 글쓰고 싶은 얀붕이들을 위한 미세 팁 [16]

미치광이 2021.11.16 2352 61

490 기타자료 핫산을 위해 일본어를 배우려는 게이들을 위한 알짜배기 팁 [12]

ㅇㅇ 2021.09.30 1979 14

489 기타자료 글쓰고 싶은 얀붕이들에게 주는 팁 [12]

ㅇㅇ (58.232) 2021.05.21 1029 14

488 기타자료 (팁)혹시 모바일 유튜브로 ASMR 듣는 얀붕이들 [10]

유령토끼 2021.04.28 751 2

487 기타자료 소설 쓸 때 한 가지 팁. [6]

ㅇㅇ (14.43) 2020.12.05 438 9

486 기타자료 이거 번역기 돌릴때 꿀팁인데 [7]

벵옹 2020.11.24 690 5

485 기타자료 "글 못쓰지만 사료써도 될까요?" + 비틱, 잼민이글 [30]

ㅇㅇ (59.15) 2021.07.06 4663 30

484 기타자료 여태 쓴 글 모음집 (추가 예정) [8]

SixtyTwo 2023.12.10 976 12

483 기타자료 최초의 얀데레중 하나로 꼽히는 글 [12]

에네모토타카네 2023.12.08 7014 43

482 기타자료 (백합,유혈) 이 게임 보는데 재밌더라 [5]

아슈크림 2023.12.02 2303 12

481 기타자료 몰루) 이번 신캐도 나름 땡기는구만 [9]

이신 2023.11.28 5102 51

480 기타자료 얀데레 시뮬레이터 성범죄 이슈로 개발중지 [18]

언더웨어 2023.11.20 6672 65

479 기타자료 근친)앤디와 레일리의 관 아카콘 만들어옴 [6]

에네모토타카네 2023.11.17 4770 21

글쓰기

전체글 개념글

사용하고 계신 브라우저가 시간대 설정을 지원하지 않으므로 GMT 시간대가 적용됩니다.