모델 구조를 변경하지 않고, Data-Centric 관점으로 데이터 품질을 개선하여 텍스트 주제 분류 모델 성능을 향상시키는 프로젝트 학습 데이터의 노이즈 및 레이블 오류를 정제하고, 부족한 데이터를 합성하여 데이터 균형을 개선하는 것이 목표
조건 '7개의 주제를 직접 입력하는 것은 불가능' 기사 제목 생성은 가능하지만, 7개의 주제가 무엇인지 알 수 없다고 가정 7개의 주제를 입력할 때, 매핑된 한국어 정보로 입력이 불가능하고 정수 정보로만 전달 저희는 7개의 주제가 무엇인지 알고 있지 않는 상황
text의 단어들을 추출하여 LLM 모델을 통한 사용될 7개의 주제 파악 후 relabeling
- 특수 기호 제거
- Okt를 활용해 형태소 분석 및 불용어 제거
- 2글자 이상 단어 필터링 함수
text의 문장이 불필요한 특수 기호와 한글자로 이루어진 단어들이 LLM 모델이 label 주제를 찾는데 어려움이 있을거로 판단하여 제거 또한, 정제된 문장을 활용하여 형태소로 단어들을 추출하여 모델에 입력해 label 주제를 원활하게 찾을 수 있도록 함
-
prompting
특수문자와, 불용어를 제거해 2글자 이상으로 구성된 단어를 추출 후 빈도수를 계산하여 상위 단어들 활용 prompting 활용하여 7개의 label을 찾을려고 하였으나 잘 추출하지 못하는것을 확인하여 Langchain을 활용
-
Langchain
LIama2,3 실험 과정 label을 잘 찾지 못하는 것을 확인하여 GPT3를 활용하여 잘 나오는지 확인 후 LIama 코드 수정 LIama3을 활용하여 label 예측을 수행하여 ([ ] , 1 , 정치) 형태로 추출 되는 것을 확인하였고 잘 추출되는 것도 있지만 잘 추출하지 못하는 것도 있다는 것을 확인 이 후 잘 뽑은 정치, 스포츠등 데이터를 활용하여 relabeling을 진행하려 하였으나 진행하지 못하였습니다.