Llama3 8B 튜닝 과정인데 외계어문제.. ㅠㅠ

Ai 언어모델 로컬 채널

알림 알림 중 알림 취소

구독자 3449명 알림수신 170명 @바바리맨

제한없는 언어모델을 위한 채널

질문 Llama3 8B 튜닝 과정인데 외계어문제.. ㅠㅠ

eke

추천 1 비추천 2 댓글 16 조회수 773 작성일 2024-05-14 01:15:33

⚠️ 이 게시물은 작성자가 삭제할 수 없도록 설정되어 있습니다.

https://arca.live/b/alpaca/106132320

지난 글에 이어서 씁니다.

지난번 댓글 달아주신 분들에 따르면 Chosen과 Rejected 내용을 동일하게하여 학습해야한다는 말에

다시 학습해보았습니다. 전체 데이터 약 3500개를 다 하려면 시간이 걸리니 180개만 sample로 학습시켰습니다.

그런데 여전히 이렇게 나옵니다.. ㅜㅜ

같은 질문이지만 다르게 알아서 외계어를 내뱉습니다.

그래서 저는 Llama3 8b 기존 모델과 비교해보기로 했습니다.

기존 Llama3 8B 모델(로컬) 로드시 이렇게 별말없이 로딩이 빠르게 되고

답변도 잘 뽑습니다. (적어도 로드나 답변뽑는 과정에서의 코드 문제는 아닌 듯 합니다!)

그러나 제가 훈련시킨 모델은

이런식으로 시간도 오래걸리고 무언가 문제가 있다는 메세지가 같이 뜨는 것으로 보아 여기에서 원인을 찾을 수 있을거라는 생각이 듭니다만.. 아무래도 입문자다보니 어떻게 해야할지 모르겠습니다.

학습 과정에서 생긴 또 다른 문제인지... ㅠㅠ

아니면 그냥 ORPO 버리고 새로 짜는게 정답일까요

원본 데이터는 rejected만 없었기 때문에 chosen 내용을 그대로 복사하여 rejected에 넣은 것으로도 안되는걸까요.. ㅠㅠ

댓글 [16] 글쓰기

ㅇㅇ (220.117)

2024-05-14 01:20:39 삭제 수정 답글

아니 일단 문제의 변인요소가 너무 많음. 그리고 chosen, rejected가 같아야 한다는 말이 아니라 학습하려는 데이터의 prompt(질문)을 학습하려는 모델에 그대로 넣고 받은 답변을 rejected로 넣으라는 말이었음. 그리고, 비교를 한 게 학습 조금 한 모델이랑 지금 엄청나게 많은 데이터와 시간을 투자한 모델이랑 비교를 하면 안 됨.

펼쳐보기▼

eke

2024-05-14 01:27:22 답글

*수정됨

제가 사용하는 데이터는 Amod/mental_health_counseling_conversations이고 해당 컬럼은 Context와 Response 뿐입니다.
제가 ORPO에 맞게 변형한 것은 Context를 prompt로 이름을 바꾸어서 넣고, Response를 Chosen과 Rejected 둘 다 넣는 것이였습니다. 댓글 주신거에 따르면 Rejected만 넣으면 된다고 하시는데 그러면 Chosen에는 공란으로 두어도 된다는 의미일까요?

펼쳐보기▼

ㅇㅇ (220.126)

2024-05-14 01:36:37 삭제 수정 답글

아래 글도 읽고 왔는데 데이터가 어떻게 되어있는걸 사용하시는거죠?

펼쳐보기▼

eke

2024-05-14 01:39:56 답글

https://huggingface.co/datasets/Amod/mental_health_counseling_conversations

이 데이터입니다. Context와 Response 컬럼 2개만 존재하는 데이터입니다.

huggingface.co

Amod/mental_health_counseling_conversations · Datasets at Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

*수정됨

이 데이터입니다. Context와 Response 컬럼 2개만 존재하는 데이터입니다.

펼쳐보기▼

ㅇㅇ (220.126)

2024-05-14 01:49:46 삭제 수정 답글

context를 사용하시는 모델에 질문하고 얻은 답변을 rejected로 따로 빼시고 response를 chosen으로 넣어보세여
rejected와 chosen 데이터는 각각 마지막에 eos token 주셔야하구용

펼쳐보기▼

eke

2024-05-14 02:04:42 답글

제가 했던 것은 Context를 prompt로 바꾸고, Response를 chosen으로 바꾸어 넣는 것이였습니다. 
근데 rejected는 모델에 질문하고 얻은 답변을 따로 빼야한다는게 무슨 말인지 잘 이해가 안갑니다.

펼쳐보기▼

ㅇㅇ (220.126)

2024-05-14 02:08:31 삭제 수정 답글

rejected는 모델에서 얻은 답변으로 해야한다는 의미였습니다.
지금 사용하시는 base모델 또는 다른 모델에 질문해서 rejected 데이터를 얻으셔야해요
STF 학습된 모델이 있으시면 거기서 얻으셔도 되구요

펼쳐보기▼

eke

2024-05-14 02:10:31 답글

아.. 네 알겠습니다. rejected 데이터는
"orpo를 활용한다면, chosen에 있는 내용을 rejected에 그대로 넣으면 chosen-rejected의 차이에 대해서는 학습하지 않" 
이걸 생각했는데 결국 직접 생성해야하나보네요.. ㅜㅜ

펼쳐보기▼

ㅇㅇ

2024-05-14 02:13:29 답글

1. Base model이 정확히 어떤 llama-3인가요?
2. 180개 sample만으로 답이 변했다고 하시니, learning rate라던가 다른 하이퍼파라미터들도 알려주세요.
3. 사실 많은 분들이 ORPO 안에서 어떻게든 방법을 알려드리고 있긴 한데, ORPO는 학습 도구가 아니라 학습 방법론입니다. 도구는 어느 정도 선에서 호환이 되지만 방법론이 다른건 호환이 안돼요. 결국 궁극적인 문제 원인은 데이터 셋이 ORPO용이 아닌데 ORPO로 학습시키는 게 원인인 건 분명합니다.

펼쳐보기▼

eke

2024-05-14 02:17:54 답글

*수정됨

base model: Llama3 8b - Instruct이며 로컬로 돌리고 있습니다.

ORPO config 및 trainer 하이퍼 파라미터는 다음과 같습니다.

learning_rate는 default값으로 설정하였습니다.
beta=0.1
num_train_epochs=1,
max_length= 256
max_prompt_length = 128,
per_device_train_batch_size=2,
remove_unused_columns=False,
gradient_accumulation_steps=2,
gradient_checkpointing=True,
optim="paged_adamw_8bit",
lr_scheduler_type="cosine",
peft_config=peft_config,
tokenizer=tokenizer

펼쳐보기▼

ㅇㅇ

2024-05-14 02:33:16 답글

계속 ORPO 쓰시려면 이거 참조해보세요
- https://huggingface.co/blog/mlabonne/orpo-llama-3
- learning rate가 논문+저 블로그에서는 8e-6을 추천하는데, ORPOTrainer 디폴트는 5e-5네요. 영향이 있을지도 모르겠어요. warmup도 없으니... (안 써봐서 모름;;)
- + 원래 ORPO는 Instruct 모델이 아니라 Base모델에서 바로 학습하는 거긴 합니다.
- 다른 분들이 제시하는 방법들도 이론적으로는 다 학습이 되긴 해야 하는 것 같아서 잘 모르겠어요.

https://arxiv.org/html/2403.07691v2
https://huggingface.co/docs/trl/main/en/orpo_trainer

일단 제 생각에는 ORPOTrainer 대신 SFTTrainer로 쓰는 법을 찾아보시는 걸 추천 드립니다. 데이터 포맷도 원본 포맷이랑 비슷할 거구요.
+ max_length 좀 늘리셔야겠어요. 데이터셋에 답변 길이가 꽤 긴 것들이 많습니다.

huggingface.co

Fine-tune Llama 3 with ORPO

A Blog post by Maxime Labonne on Hugging Face

*수정됨

계속 ORPO 쓰시려면 이거 참조해보세요
- https://huggingface.co/blog/mlabonne/orpo-llama-3
- learning rate가 논문+저 블로그에서는 8e-6을 추천하는데, ORPOTrainer 디폴트는 5e-5네요. 영향이 있을지도 모르겠어요. warmup도 없으니... (안 써봐서 모름;;)
- + 원래 ORPO는 Instruct 모델이 아니라 Base모델에서 바로 학습하는 거긴 합니다.
- 다른 분들이 제시하는 방법들도 이론적으로는 다 학습이 되긴 해야 하는 것 같아서 잘 모르겠어요.

https://arxiv.org/html/2403.07691v2
https://huggingface.co/docs/trl/main/en/orpo_trainer

일단 제 생각에는 ORPOTrainer 대신 SFTTrainer로 쓰는 법을 찾아보시는 걸 추천 드립니다. 데이터 포맷도 원본 포맷이랑 비슷할 거구요.
+ max_length 좀 늘리셔야겠어요. 데이터셋에 답변 길이가 꽤 긴 것들이 많습니다.

펼쳐보기▼

eke

2024-05-14 02:43:49 답글

네. 사실 해당 데이터셋으로 ORPO를 적용했다는 외국의 블로그 포스트, 
https://medium.com/@nabilw/fine-tuning-llama-3-on-mental-health-dataset-70d4e69b8875


그리고 system까지있어서 데이터 형식이 일치하지 않는 것으로 ORPO를 적용한 또 다른 사례

https://www.analyticsvidhya.com/blog/2024/05/finetuning-llama-3-with-odds-ratio-preference-optimization/


이것 때문에 ORPO 데이터 형식 민감도가 크지 않겠다고 생각한 것이거든요... 근데 이 포스트들이 기만(?)한건지.. 답답하네요.. ㅎㅎ

Medium

Fine-tuning LLaMA 3 on Mental Health Dataset

Part 1: Introduction

네. 사실 해당 데이터셋으로 ORPO를 적용했다는 외국의 블로그 포스트, 
https://medium.com/@nabilw/fine-tuning-llama-3-on-mental-health-dataset-70d4e69b8875


그리고 system까지있어서 데이터 형식이 일치하지 않는 것으로 ORPO를 적용한 또 다른 사례

https://www.analyticsvidhya.com/blog/2024/05/finetuning-llama-3-with-odds-ratio-preference-optimization/


이것 때문에 ORPO 데이터 형식 민감도가 크지 않겠다고 생각한 것이거든요... 근데 이 포스트들이 기만(?)한건지.. 답답하네요.. ㅎㅎ

펼쳐보기▼

ㅇㅇ

2024-05-14 03:09:44 답글

...잠깐, 두번째 블로그 글은 맞는 방법인데, 첫번째 블로그 글... 설마 GPT로 쓴건가...? 와... 와...

펼쳐보기▼

eke

2024-05-14 04:16:12 답글

첫번째 블로그 글에 제가 낚였나봅니다. 두번째 블로그 글 중심으로 시도해보고 안되면.. 그냥 밑바닥부터 해야겠네요 ㅠㅠ

펼쳐보기▼

ㅇㅇ (210.91)

2024-05-14 06:18:23 삭제 수정 답글

어제부터 여러 사람들이 말하지만 님이 가져온 데이터는 orpo 학습법에 맞지 않고 SFT 학습법에 맞는 데이터입니다.
그 데이터로 꼭 orpo 학습을 시키고 싶으시다면 틀린 대답을 직접 만드셔서 채우시거나 다른 ai를 이용해 만드셔야합니다.
질문, 맞는 답변, 틀린 답변 이렇게 3개가 한 쌍이어야하는데 그렇지 못하면서 풀 파인튜닝을 돌리면 가중치가 날라가는게 당연합니다.
medium이 기술 블로그이긴한데 조회수로 돈 버는 구조라 장난질 치는 애들도 있으니 무조건 믿으시면 안됩니다.
저 작성자는 사기를 쳤거나 데이터를 가공했지만 방법은 알려주기 싫어서 숨겼거나 둘 중 하나입니다.

펼쳐보기▼

eke

2024-05-14 06:26:03 답글