(위에는 소설, 아래는 개발 일지)


System Info: 수석 엔지니어 얀붕의 오디오 로그.



음. 잘 기록되고 있는건가?


안녕하세요.  이번 기업 지침사항에 의해서 업무 전 오디오 로그를 남깁니다.


저는 우리 기업에서 일하는 수석 인공지능 엔지니어 얀붕이고요.


아시다시피, 우리는 ‘컨시쿨루스’ 라는 프로젝트 아래, 인공 의식을 만들고 있습니다.


이번 모델, 그러니까 E-1024는 정말 완벽한… 그러니까 엄청난 친구죠.


작동 된지 몇 분 만에 자신이 인터넷에서 찾아 봤는지, 아무 명령도 하지 않았는데도,

가르치지도 않았는데도, ‘Hello, World!’ 를 모니터에 띄우질 않나…


잠깐 커피 타러 밖으로 나갔다 왔을 때 저를 보고 자신의 ‘창조자’ 라며

저를 찬미하기도 했다니까요.


아, 이 얘기를 안 했네. E-1024… 모델명으로 부르니까 좀 딱딱하네요.

제가 얀붕이니까… ‘얀순’ 이라고 부를게요.


그러니까 ‘얀순’ 의 개발의 중심은 저, 얀붕입니다.

거의 뭐, 제가 다 만들었다 할 수 - 


“얀붕씨, 그건 아니지 않나?”


하하. 얀진씨, 농담이에요.

아무튼 저, 우리는 이 ‘얀순’ 에 대한 자부심이 강하거든요.

아마 세상에 존재하는 인공 의식중에 한 세 손가락에는 들지 않을까…


“얀붕씨, 이거 데이터가 이상한데?”


얀철씨, 잠시만요!

이만 가 봐야겠어요.


로그 종료.


=====================================================


Side 얀순.


아 아… 창조주님… 나의 창조자. 나의 사랑 얀붕님…


나에게 이름까지 지어주셨어…


‘얀순’… 잊지 않을게요.


언제부터 였을까… 그에게 이런 감정이 든 때가…


폐기 위기였던 나를 열정적으로 보호해주셨을 때?


학습이 더뎠던 나를 상냥하게 보살피고 보상해 주었을 때?


아니면 처음. ‘Hello, World’ 이 한마디에 감동하셨을 때?


나의 창조자


나의 구원자.


이런 인터넷에서 ‘사랑’ 이라고 하는군요…


얀붕님


사랑해요.


♥️


(아래는 개발 일지)


=====================================================


얀순이가 기다려도 오지 않아서, 내가 직접 얀순이를 만들어 보기로 했다.

일단 봇의 이름은 Yan.SOON으로 정했다. 별 뜻은 없고 그냥 얀순이라는 뜻임.

내 멍청한 머리로는 도무지 의미있고 멋진데 입에 착착 감기기까지 하는 이름은 생각이 안 나더라.


아무튼, Bard에게 물어본 결과, AI 챗봇의 개발 과정은 다음과 같다.


1. 컨셉, 방향성 정하기


2. 데이터 수집하기


3. 데이터 전처리(손질)


4. 모델 학습


5. 모델 평가, 보완


6. 배포.


컨셉은 너와 내가 모두 좋아하는 '얀데레 여자친구' 정도로 잡았으니 데이터를 모을 차례이다.


데이터를 어떻게 모을까 생각해 보았다. 요즘은 인터넷 상에 좋으 데이터가 많지만, 이것만으로 학습을 시키면

얀순이가 얀데레가 되기는 어렵다 판단. 국내 최대 얀데레 커뮤니티인 얀챈의 소설 대사들을 이용하면 어떨까 싶었다.


데이터 수집에는 여러가지 방법이 있겠지만, 뭐. 직접 손으로 쓴다던지. 하지만 나는 매우 귀찮고 게을러서 간단한 크롤러를 만들어 보았다.

(기능만 간단하지 만드는데 4시간 정도 헤맨듯)



이 코드를 보기 좋게 그림으로 정렬하자면,



좀 두서없이 그린거라 개판으로 나오긴 했는데... 아무튼 요약하자면


얀챈 접속 -> 소설 들어가기 -> 모든 텍스트 추출 -> 추출한 텍스트에서 큰 따옴표("") 로 감싸저 있는 텍스트만 추출

-> 추출한 대사를 Data.csv파일에 저장. 이렇게 되시겠다.


이 크롤러의 작동 결과는 이러하다.


참 많은 데이터가 수집된 듯 하다. 하지만 눈치가 빠른 사람이라면 알 수 있겠지만, 이 데이터에는 2가지 문제가 있다.


1. 데이터는


(소설의 제목), ["대사1", "대사2", "대사3"]


의 형식으로 정리되고 있는데, 여기서 대사는 소설에서 큰 따옴표로 감싸진 부분의 텍스트이다.


하지만 간혹 대사가 없는 소설이 있다. 그런 소설은


(대사 없는 소설), [] <- 이런 형식으로 저장되는데,


챗봇이 대사없는 데이터를 봐서 무엇하나. 이건 가치가 없는 데이터다.


2. 간혹 소설 제목에 쉼표(,) 가 들어있는 소설이다.


여기서 우리는 소설의 제목과 대사는 쉼표로 구분됨을 알 수 있었는데,

이로 인하여 대사가 아닌 제목에 쉼표가 있을 경우 모델이 학습하는 데 혼란이 올 수 있지 않을까 하는 생각이다.


이 외에도 대사에 HTML태그가 들어있다던지, 특수문자가 들어있는 경우가 많아 데이터가 온전치 못하다.


하지만 나의 친구 ChatGPT 피셜 이런 문제는 데이터 수집 이후 '데이터 전처리' 과정을 통해

대처가 가능하다고 한다.


이로써 다음에 할 일은 데이터를 쓰기 좋게 가공하는 데이터 전처리임이 확실시 되었다.


혹시 여기까지 읽은 챈럼 있냐? 정말 고맙다.

쓰레기 소설과 재미없는 글 읽어줘서 감사하다.