얀데레 망상 + 개발 일지) AI 얀순을 만들어보자(기존 코드 보충, 테스트 데이터 생성, 모댈 설계편)

얀데레 채널

채널위키 알림 알림 중 알림 취소

구독자 21127명 알림수신 420명 @sk통피

너'만'을 좋아하는 사람들을 다루는 채널입니다.

기타자료 얀데레 망상 + 개발 일지) AI 얀순을 만들어보자(기존 코드 보충, 테스트 데이터 생성, 모댈 설계편)

Havat

추천 16 비추천 3 댓글 7 조회수 1069 작성일 2024-01-24 03:23:55 수정일 2024-05-05 20:02:47

https://arca.live/b/yandere/97379715

고양이 같은 얀데레가 보고싶다.

혼자서 게임이나 문서작업 때문에 컴퓨터를 쓰고 있으면

자신한테 관심을 가져달라고 키보드를 두드리며 소심한 방해를 하는 얀순이가 보고싶다.

만약 컴퓨터에 여자라도 나오면 그걸 귀신같이 알아챈 얀순이가

컴퓨터 전원을 내려버려서 방해해 줬음 좋겠다. 그런 얀순이한테 짜증 한 번 내지 않고 사랑으로 쓰담쓰담 해 주고 싶다.

모니터에 집중하고 있을 때면 곁으로 달려와 머리를 들이 밀며 쓰다듬어 달라고 하는 얀순이가 보고싶다.

하지만 너무 바쁜 나머지 반응을 안 해줘서 지치고 삐진 얀순이가

조용히 따뜻한 침대로 가 엎드려 자는 모습도 보고 싶다.

(아래는 개발 일지)

=====================================================

https://arca.live/b/yandere/97189261?p=2

지난 시간, 나는 데이터 전처리 코드를 작성했다.

요약하자면, 여러가지 데이터 파일을 하나로 합치고

문장 데이터를 형태소 단위로 분리, 정리하는 코드였다.

하지만 내가 또 최근에 안 사실이 있었으니, 데이터 전처리에는 다음과 같은 과정이 추가로 필요하다는 것이었다.

일단 챗봇의 원리를 알아보자. 일단, 인공지능 모델은 텍스트를 그대로 알아 들을 수 잆다.

따라서 텍스트를 컴퓨터가 알아 들을 수 있게끔 번역해야 하는데, 그 과정을 '임베딩' 이라고 한다.

임베딩은 텍스트를 숫자로 인코딩(정보를 변환 시키는 행위)한다. 아래는 간단한 예시이다.

만약 ['안녕하세요', '사랑해'] 라는 두 가지 문장이 있다고 했을 때, '안녕'은 '0, '하'는 '1', '세요'는 '2'로 변환 시키고,

'사랑'은 '3', '해'는 '4'로 변환시킨다. 이로써 얻은 결과는 아래와 같다.

[[0 1 2],

[3 4]]

하지만 여기서 문제가 있는데, 문자의 길이가 맞지 않는다는 것이다. 문장의 길이가 들쭉날쭉하면 모델이 학습하는 데 지장이 생길 수 있다.

이때 필요한 게 '패딩' 이다. 그냥 문장의 길이를 동일하게 맞추는 행위이다. 패딩은 보통 숫자 '0'으로 길이를 맞추는게 관습이다.

앞서 설명한 ['안녕하세요', '사랑해']를 패딩시키면 아래와 같다.

[[0 1 2],

[3 4 0]]

챗봇은 저 숫자들을 학습하고, 숫자를 먼저 출력한 다음 그 숫자를 텍스트로 변환(디코당)하여 대화하는 방식으로 작동된다.

본론으로 돌아와서, 나는 현재 형태소 단위로 문장을 분리시켰으니 이제 임베딩과 패딩 과정을 거치면 데이터 전처리는 끝난다.

코드는 아래와 같다.

GPT와 머리를 싸매고, 싸우면서 코드를 완성시켰다. 한 2시간 걸린듯.

코드의 구조는

불러온 데이터를 형태소 단위로 변환 -> 형태소들을 임베딩 -> 가장 긴 문장 계산 -> 패딩. 이렇게 되시겠다.

이런 코드를 넣어 디버그 한 결과

이렇게 잘 임베딩, 패딩 된 데이터를 볼 수 있다.

이제 테스트 데이터를 만들 차례다. 테스트 데이터란 모델의 성능을 평가하는 데이터인데,

실제 상황에서 모델이 잘 작동 하는지를 테스틀하는 데이터라고 할 수 있다.

보통 테스트 데이터는 따로 만들어서 사용하는게 보통인데, 나는 너무 귀찮아서 2600줄 중에 100줄은 내가 새로 쓰고 나머지는

그냥 기존 데이터의 순서를 섞어서 넣었다.

이렇게.

이제 모델 설계 차례인데, 나는 '트랜스포머'를 사용해 만들어볼 생각이다.

뭐. 트랜스포머는 기존 CNN(합성곱 신경망)과 RNN(순환 신경망)과 다르게 문장의 순서에 상관없이 정보를 처리할 수 있다 카더라.

트랜스포머는 어텐션 기법을 사용해서 더욱 긴 문장의 단어의 뜻을 이해하고 어쩌고 저쩌고...

이해 못하겠어서 그냥 복붙했다.

이런 복붙한 고드를 실행시키면 아래같은 멋진 화면이 뜬다.

모델의 구조가 이렇게 나온다.

각 층의 이름, 타입, 출력 모양, 파라미터 개수가 나오는데, 무슨 의미인지 정확하게는 모르겠다.

나중에 알게 되겠지.

아무튼 다음시간에 보자.

여기까지 읽어준 챈럼들 너무 고맙다.

댓글 글쓰기

Qoosdjjc

2024-01-24 04:35:00 답글

사려줏매

2024-01-24 05:21:10 답글

뭔지는 모르겠지만 일단 몬가 몬가가 일어나고 있다

펼쳐보기▼

HORUS_EYE

2024-01-24 13:44:44 답글

1인 1얀순 보급제 가능하냐

펼쳐보기▼

실로

2024-01-24 19:12:42 답글

인체를 연성한 연금술사는 금기를 어긴 대가로...

어어 이거 완전

펼쳐보기▼

주선영

2024-01-25 10:10:52 답글

그래서 언제부터 다운 가능한가요?

펼쳐보기▼

sushi

2024-01-25 21:53:55 답글

뭔소린진모르겠는데 개추

펼쳐보기▼

앗닙

2024-02-08 19:32:40 답글

대충 잘 이해 못 한 코드가 들어갔으니 인터넷힘센 얀순이가 혼내주러 올듯

펼쳐보기▼

글쓰기

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 잡담 소설(연재) 소설(단편) 짤(창작) 짤(외부) 리뷰/홍보 음성 대회 기타자료 소설(외부) 공지 운영

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 28414499

공지 얀데레 채널 규정 (24.05.19. 수정)

sk통피 2022.09.14 37718

공지 얀데레 내용 없는 무지성야스글 ㄴㄴㄴ

sk통피 2022.03.29 18662

공지 얀데레 채널 2024년 1분기 소설 결산

MP4 2024.04.08 7909

공지 채널 규정 이것저것 수정함 + 하고싶은 말

sk통피 2024.05.19 1187

공지 호출기 & 완장 리스트 8.

sk통피 2022.08.29 33507

공지 호불호 장르의 글 게시에 관한 공지

sk통피 2023.04.29 4939

숨겨진 공지 펼치기(2개)

523 기타자료 개발 일지) AI 얀순을 만들어 보자(완결) [19]

Havat 2024.05.05 2856 92

522 기타자료 얀데레 망상 + 개발 일지) AI 얀순을 만들어보자(기존 코드 보충, 테스트 데이터 생성, 모댈 설계편) [7]

Havat 2024.01.24 1070 13

521 기타자료 간단한 소설 + 개발 일지) AI 얀순을 만들어보자(데이터 전처리, 코드 작성편) [6]

Havat 2024.01.21 909 19

520 기타자료 내가 빗치가 된 이유 등장인물 소개 [3]

아케인메이지 2024.04.23 1917 18

519 기타자료 소전)흥국이는 한결같구나 [7]

ㅇㅇ 2024.04.15 3159 43

518 기타자료 (영상툰) 오랜만에 나온 카논 약얀데레 만화 [2]

데su 2024.04.12 1474 15

517 기타자료 얀데레 채널 2024년 1분기 소설 결산 [18]

MP4 2024.04.08 7909 58

516 기타자료 내가 진짜 좋아하는 얀데레 유툽영상 [3]

꼬마시리즈 2024.04.07 988 6

515 기타자료 얀데레력 은근 십오지는 노래

데su 2024.03.21 1049 1

514 기타자료 얀붕이들을 위한 게임추천 [12]

한글번역기 2024.03.17 1365 13

513 기타자료 (영상툰) 얀데레 드리프트 십오지는 작품 건짐 [3]

데su 2024.03.08 1670 12

512 기타자료 니케 신캐 ㄷㄷ [15]

카드레 2024.03.02 6479 107

511 기타자료 블아, 원신) 시로코에게 여행자란 사실을 들킨다면 [11]

엔터헤븐 2024.02.21 2791 14

510 기타자료 이거보고 안데레 입문한 사람 있냐 [3]

찐따히키코모리 2024.02.19 1587 2

509 기타자료 니케) 회로 돈다 [17]

shalil 2024.02.14 5122 85

508 기타자료 백합, 약고어) 백합 얀데레 회로도는 노래

ㅇㅇ (118.42) 2024.02.04 1386 3

507 기타자료 '찾았다' [20]

어쩌라는거냐네놈이경지를넘었어도 2024.02.04 6690 45

506 기타자료 와 요즘 ai기술 장난 아니네.... [1]

키티호크 2024.02.03 2238 5

505 기타자료 얀챈에 이거 올라온 적 있나 [5]

ㅇㅇ 2024.01.31 2096 16

504 기타자료 블아 수비도스 복각 기념 기싸움 스토리 [18]

Promotion 2024.01.23 8683 105

503 기타자료 네 차에 독을 탔어.. [11]

이세계지역연구 2024.01.22 5167 31

502 기타자료 ㄹㅇ 미친거 같은 게임 추천 [13]

ㅇㅇ (182.226) 2024.01.21 2834 22

501 기타자료 간단한 소설 + 개발 일지) AI 얀순을 만들어보자(데이터 수집편) [15]

Havat 2024.01.18 937 14

500 기타자료 지금까지 쓴 완결 글 모음 [20]

케이카츠 2024.01.15 5023 60

499 기타자료 얀데레 채널 2023년 4분기 소설 결산 [12]

MP4 2024.01.07 15501 56

498 기타자료 조아라 검색 팁 [4]

ㅇㅇ (39.116) 2020.12.11 634 5

497 기타자료 이것도 얀데레임? [1]

데su 2023.12.27 1260 0

496 기타자료 얀데레 푸리나(약물주의 [1]

미카히메최고 2023.12.27 2889 11

495 기타자료 토토노 미접속 10년 찍어 옴 [30]

아스트라공용오나홀 2023.12.13 6905 104

494 기타자료 얀데레 빌드업을 위한 팁 몇 가지 [40]

국밥을마시는사람 2023.12.12 5240 61

493 기타자료 의존형 얀데레의 계념과 팁 [4]

00 2023.12.02 1614 16

492 기타자료 글 쓸 때 문단 나누기 팁 [4]

TS트킥 2022.02.26 656 10

491 기타자료 글쓰고 싶은 얀붕이들을 위한 미세 팁 [16]

미치광이 2021.11.16 2352 61

490 기타자료 핫산을 위해 일본어를 배우려는 게이들을 위한 알짜배기 팁 [12]

ㅇㅇ 2021.09.30 1979 14

489 기타자료 글쓰고 싶은 얀붕이들에게 주는 팁 [12]

ㅇㅇ (58.232) 2021.05.21 1029 14

488 기타자료 (팁)혹시 모바일 유튜브로 ASMR 듣는 얀붕이들 [10]

유령토끼 2021.04.28 751 2

487 기타자료 소설 쓸 때 한 가지 팁. [6]

ㅇㅇ (14.43) 2020.12.05 437 9

486 기타자료 이거 번역기 돌릴때 꿀팁인데 [7]

벵옹 2020.11.24 690 5

485 기타자료 "글 못쓰지만 사료써도 될까요?" + 비틱, 잼민이글 [30]

ㅇㅇ (59.15) 2021.07.06 4663 30

484 기타자료 여태 쓴 글 모음집 (추가 예정) [8]

SixtyTwo 2023.12.10 976 12

483 기타자료 최초의 얀데레중 하나로 꼽히는 글 [12]

에네모토타카네 2023.12.08 7013 43

482 기타자료 (백합,유혈) 이 게임 보는데 재밌더라 [5]

아슈크림 2023.12.02 2303 12

481 기타자료 몰루) 이번 신캐도 나름 땡기는구만 [9]

이신 2023.11.28 5102 51

480 기타자료 얀데레 시뮬레이터 성범죄 이슈로 개발중지 [18]

언더웨어 2023.11.20 6671 65

479 기타자료 근친)앤디와 레일리의 관 아카콘 만들어옴 [6]

에네모토타카네 2023.11.17 4770 21

글쓰기

전체글 개념글

사용하고 계신 브라우저가 시간대 설정을 지원하지 않으므로 GMT 시간대가 적용됩니다.