Llama2 fine-tuning해서 api 호출하는 모델을 만들어 보려고 합니다. 


아직 기획만 있고 개발은 아직인데요.. PERT의 LoRa 설정해서 사용려고 하고,,

학습시킬 데이터 세트는 수기로 직접 만들려고 하는데, .


1. 학습용 데이터 세트는 어떤 형태로 만들어야 하나요?

구글링을 좀 해보니

{'date': '2022-07-03 17:14:37',
 'category': 'economy',
 'press': 'YTN ',
 'title': '추경호 중기 수출지원 총력 무역금융 40조 확대',
 'document': '앵커 정부가 올해 하반기 우리 경제의 버팀목인 수출 확대를 위해 총력을 기울이기로 했습니다. 특히 수출 중소기업의 물류난 해소를 위해 무역금융 규모를 40조 원 이상 확대하고 물류비 지원과 임시선박 투입 등을 추진하기로 했습니다. 류환홍 기자가 보도합니다. 기자 수출은 최고의 실적을 보였지만 수입액이 급증하면서 올해 상반기 우리나라 무역수지는 역대 최악인 103억 달러 적자를 기록했습니다. 정부가 수출확대에 총력을 기울이기로 한 것은 원자재 가격 상승 등 대외 리스크가 가중되는 상황에서 수출 증가세 지속이야말로 한국경제의 회복을 위한 열쇠라고 본 것입니다. 추경호 경제부총리 겸 기획재정부 장관 정부는 우리 경제의 성장엔진인 수출이 높은 증가세를 지속할 수 있도록 총력을 다하겠습니다. 우선 물류 부담 증가 원자재 가격 상승 등 가중되고 있는 대외 리스크에 대해 적극 대응하겠습니다. 특히 중소기업과 중견기업 수출 지원을 위해 무역금융 규모를 연초 목표보다 40조 원 늘린 301조 원까지 확대하고 물류비 부담을 줄이기 위한 대책도 마련했습니다. 이창양 산업통상자원부 장관 국제 해상운임이 안정될 때까지 월 4척 이상의 임시선박을 지속 투입하는 한편 중소기업 전용 선복 적재 용량 도 현재보다 주당 50TEU 늘려 공급하겠습니다. 하반기에 우리 기업들의 수출 기회를 늘리기 위해 2 500여 개 수출기업을 대상으로 해외 전시회 참가를 지원하는 등 마케팅 지원도 벌이기로 했습니다. 정부는 또 이달 중으로 반도체를 비롯한 첨단 산업 육성 전략을 마련해 수출 증가세를 뒷받침하고 에너지 소비를 줄이기 위한 효율화 방안을 마련해 무역수지 개선에 나서기로 했습니다. YTN 류환홍입니다.',
 'link': 'https://n.news.naver.com/mnews/article/052/0001759333?sid=101',
 'summary': '올해 상반기 우리나라 무역수지는 역대 최악인 103억 달러 적자를 기록한 가운데, 정부가 하반기에 우리 경제의 버팀목인 수출 확대를 위해 총력을 기울이기로 결정한 가운데, 특히 수출 중소기업의 물류난 해소를 위해 무역금융 규모를 40조 원 이상 확대하고 물류비 지원과 임시선박 투입 등을 추진하기로 했다.'}

이런 형태도 있고

<s>[INST]질문[/INST]답변</s>

이런 형태도 있고 

<s> ### Instruction: 질문 ### Response: 답변 </s>

어떤 형태로 만들어서 dataset화 해야하는지 궁금합니다.! 

이렇게 형태가 다양한던데 Llama2의 trl SRTTrainder()를 써서 파인튜닝하려면 어떤 형태로 구성해서 dataset type으로 변환해서 쓰면 되는지 궁금합니다. 


2. 제가 예상하는 데이터 세트의 구조가 예를 들자면

<s> ### Instruction: 로그인 해줘 ### Response: /auth/login </s>

이런 결과를 뱉는 LLM을 만들어보고 싶은데  데이터 세트를 위와 같이 구성하면 될지? 아니면 오타도 고려해서 

[
  <s> ### Instruction: 로그인 해줘 ### Response: /auth/login </s>,
  <s> ### Instruction: 로그이 해줘 ### Response: /auth/login </s>,
  <s> ### Instruction: 로그인 해주 ### Response: /auth/login </s>,
  <s> ### Instruction: 로그인 해 ### Response: /auth/login </s>,
]

이런 형태로 구성하는 것이 좋을까요? 가능하면 오타나 띄어쓰기를 하지않는 상황도 고려하고 싶어서요.


또 확실하지 않은 상태에서 간단히 파인튜닝해보니 "�" 이런 답을 하던데.. 

파인튜닝이 잘 안됬거나, Llama2 한글지원이 안되어서 그런 것도 있나ㅏ.. 싶은데.. 어렵네요..


조언을 부탁드리겠습니다.!!!