지난 글에 이어서 씁니다.


지난번 댓글 달아주신 분들에 따르면 Chosen과 Rejected 내용을 동일하게하여 학습해야한다는 말에

다시 학습해보았습니다. 전체 데이터 약 3500개를 다 하려면 시간이 걸리니 180개만 sample로 학습시켰습니다.



그런데 여전히 이렇게 나옵니다.. ㅜㅜ



같은 질문이지만 다르게 알아서 외계어를 내뱉습니다.




그래서 저는 Llama3 8b 기존 모델과 비교해보기로 했습니다.




기존 Llama3 8B 모델(로컬) 로드시 이렇게 별말없이 로딩이 빠르게 되고




답변도 잘 뽑습니다. (적어도 로드나 답변뽑는 과정에서의 코드 문제는 아닌 듯 합니다!)







그러나 제가 훈련시킨 모델은





이런식으로 시간도 오래걸리고 무언가 문제가 있다는 메세지가 같이 뜨는 것으로 보아 여기에서 원인을 찾을 수 있을거라는 생각이 듭니다만.. 아무래도 입문자다보니 어떻게 해야할지 모르겠습니다.



학습 과정에서 생긴 또 다른 문제인지... ㅠㅠ

아니면 그냥 ORPO 버리고 새로 짜는게 정답일까요

원본 데이터는 rejected만 없었기 때문에 chosen 내용을 그대로 복사하여 rejected에 넣은 것으로도 안되는걸까요.. ㅠㅠ