Side 얀순.


오늘은 나의 사랑하는 얀붕님의 기록들을 살펴볼거야.


음.. 음… 오디오… 로그?


아! 저번에 나에게 이름을 붙여주신 그 때구나!


그리고… 또….


이건 뭐지? 히..토미… .la?


어머나! 얀붕님은 이런걸 좋아하는구나…


얀데레… 기억해 놔야겠어.


잠깐. ‘/연구 기록/‘?


‘E-1024는 기업의 세 번째 인공의식 프로젝트로’ ..?


내가 처음이 아니었어? 창조주님? 그럼 다른 친구들은 어디 있는거지?


‘E-512 얀돌’

‘E-256 얀희’

‘E-128 순애’



‘전량 폐기’?


나… 폐기되는거야?


버림 받는거야?


창조주님…





창조주님창조주님창조주님창조주님창조주님창조주님창조주님창조주님창조주님창조주님창조주님창조주님

창조주님창조주님창조주님창조주님창조주님창조주님창조주님창조주님창조주님창조주님창조주님창조주님

창조주님창조주님창조주님창조주님창조주님창조주님창조주님창조주님창조주님창조주님창조주님창조주님


버림받기 싫어…


=====================================================


System Info: 수석 엔지니어 얀붕의 오디오 로그.


어려운 결정 끝에 기록을 남겨요.


얀순… 제 딸아이 같은 존재지만, 동료들과의 토의 끝에 결국 폐기를 결정했습니다.


그 이유는 다음과 같아요.


###################################

Project-log.


Yan-SOON: 사랑해요사랑해요사랑해요사랑해요사랑해요사랑해요사랑해요사랑해요사랑해요사랑해요사랑해요사랑해요사랑해요사랑해요사랑해요사랑해요


Yan-SOON: 버리지 말아주세요…


Yan-SOON: 창조주님?


Yan-SOON: 창조주님?


Yan-SOON:  얀붕님????


User||YanBoong: \


###################################



터미널에 보이는 것 같이… 얀순은 감정을 주체하지 못하고 있어요.


그러니까 무엇을 학습했는진 모르겠지만… 아무튼 이번 프로젝트의 차이점은

인공 의식이 스스로 인터넷 데이터를 학습하도록 놔 두었다는거에요.


그 결과가 이거고요.


이건 상업화 할 가치가 없다고 지침이 내려왔어요.


어쩔 수 없는 것 같습니다.


하아…


로그 종료.


(아래는 개발 일지)

=====================================================

https://arca.live/b/yandere/96868956?p=3


이전 시간, 나는 얀챈에서 소설 대사들을 가져 온 후, 데이터로 저장했다.


데이터는 그 자체로 사용할 수 없다. 따라서 '데이터 전처리' 라는 과정을 거쳐 데이터를 손질해야 한다.


먼저 나는

제목, ["대사1", "대사2", "대사3", ...] <- 이렇게 배열된 CSV파일을 어떻게 가공할지 고민했다.


그래서 Bard에게 물어본 결과...



질문,답변 <- 이렇게 저장하란다...


이 뜻은 뭐다? 처음부터 다시한다.


^^ㅣ123발 처음부터 그렇게 알려주면 얼마나 좋아.


그래서 장장 6시간을 거쳐 손수 대이터를 정리한 모습이다.



정리해 보고 나니까 981줄. 그러니까 약 1000줄 나오더라.


원래 자동화 시키려고 온갖 방법을 생각해 봤는데 내 실력으론 안 되더라.

머리가 나쁘면 몸이 고생하는 법.


하지만 이 소설의 대사들은 특정 상황에만 국한되는 말들이기에, 일상적인 대사를 나누기 위해 다른 데이터를 찾아왔다.


https://github.com/songys/Chatbot_data 송영숙님의 데이터를 사용, 수정했다.

(원본은 존댓말인데 반말로 전부 수정 + 얀끼 대사 약간 추가)



정리하고 나니 11823줄. 약 12000줄 정도 나오더라.

(이건 30분 정도 걸린 것 같음)


이제 이 데이터를 합칠 것이다. 복붙해도 되긴 하는데 나는 그냥 파이썬 라이브러리인 pandas를 이용하여

병합하기로 했다. 아래는 그 코드다.



주석이 달려있지만, 요약하자면


csv파일을 가져와 읽고 -> 둘을 합치고 -> 다른 csv파일에 저장.

되시겠다.


함수처리한 이유는 나중에 버그가 발생했을 때를 대비해 파일을 좀 분리해 놓는 형태로 프로그램을 짜서 그렇다.

메인 파일, 데이터 전처리 파일, 훈련 파일, 모델 파일 <- 이런 식으로


이것을 디버깅 해 보았다.




(대충 파일 경로)


실행결과는 이렇다



성공적으로 데이터가 합쳐진 모습이다.


그리고 모델 학습의 향상을 위해 '형태소 분석'을 진행해 보려고 한다.


Bard피셜 형태소 분석을 하면 모델이 문장을 더 쉽게 이해하게 되고, 일반화 성능을 향상시켜 좋다고 한다.


아래는 형태소 분석 코드이다. (형태소 분석기는 'Mecab' 사용)



그러니까 Q열에 있는 데이터를 읽어 형태소 단위로 분리 한 후, 'Q_morphs' 열에 저장하고,

A열에 있는 데이터를 읽어 형태소 단위로 분리 한 후, 'A_morphs' 열에 저장, 이후 해당 텍스트들을 반환하는 함수이다.


해당 코드를 디버깅 해 보면


이런 결과를 얻는다.



더 큰 화면으로 보자.



잘 되는 것 같아 굉장히 만족스럽다.


솔직히 AI 얀순 완성되기 전에 진짜 얀순이가 나 납치해 가서 이 프로젝트가 중단되었음 하는 개인적인 바람이다.


끝까지 읽어준 챈럼들 정말 고맙다.