SK TECH SUMMIT 2023 - LLM 도메인 적용 방법 RAG와 PEFT 비교
LLM, 즉 Large Language Model은 최근 AI 분야에서 핫한 기술로 자리 잡고 있습니다. 특히, 2023년에는 다양한 LLM 모델들이 주목받게 되었는데, 그 중에서도 특히 ChatGPT나 Bard 같은 모델이 큰 관심을 받았습니다. 이러한 LLM 기술은 본래 특정 작업을 지정하지 않아도 다양한 태스크를 수행할 수 있는 범용적 능력을 지니고 있습니다. 파운데이션 모델은 다양한 도메인에서 방대한 데이터를 통해 학습합니다. 이 과정을 통해 전체적인 성능이 일반화되어 특정 작업뿐 아니라 다양한 상황에서 활용 가능합니다. 기업들은 이러한 LLM을 활용해 자체적인 데이터와 도메인을 결합해 서비스화 노력을 기울이고 있습니다. 그러나, API 형태로 제공되는 모델들이 대부분이다 보니, 실제 적용 시에는 여러 제약사항과 도전 과제가 따릅니다.
RAG 및 PEFT 기법의 개요
RAG(Retrieval-Augmented Generation)와 PEFT(Parametrized Fine-Tuning)는 LLM을 특정 도메인에 적용하기 위한 기법들입니다. RAG는 검색 기반으로 사용자의 질문에 맞는 정보를 임베딩해, 관련 문서를 찾아 그 정보를 바탕으로 답을 생성하는 방식입니다. 반면, PEFT는 모델의 모든 파라미터를 업데이트하는 것이 아니라, 일부를 갱신해 학습 효과를 누리도록 하는 기법입니다. 이 둘은 각기 다른 접근법을 통해 LLM을 특정 도메인에 맞춰 활용할 수 있게 도와줍니다. PEFT는 도메인 데이터를 직접 학습하기 때문에 별도 프롬프트 작업이 필요 없고 도메인 특화에 강한 반면, 최신 데이터를 유지하기 위해 모델 재학습이 필요합니다. 반대로 RAG는 최신 데이터 적용이 쉬운 장점을 가지나 프롬프트 엔지니어링이 필수적입니다. 이러한 차이점을 잘 이해하고 상황에 맞는 기법을 선택하는 것이 중요합니다.
LLM 도메인 적용의 도전 과제
LLM을 특정 도메인에 적용할 때 여러 가지 도전 과제가 존재합니다. 가장 큰 문제로는 파인 튜닝 과정에서의 높은 비용과 리소스 요구 사항이 있습니다. 대형 모델일수록 이 과정은 더욱 복잡해지며, 기존 모델의 파라미터 개수와 데이터 양을 고려하면 쉽게 접근할 수 있는 부분이 아닙니다. 또한, 할루시네이션 문제, 즉 모델이 잘못된 정보를 생성하는 경우도 빈번합니다. 이를 해결하기 위해 프롬프트 디자인이 중요해집니다. 한국어 지원이 완벽하지 않은 경우도 있어, 한국어로 된 발화에서 간혹 영어로 답변이 나오기도 합니다. 최신 데이터를 지속적으로 반영하지 못하는 문제도 있어, 모델이 특정 시점의 데이터에 제한되어 새로운 데이터를 반영하는 데 제약이 따릅니다. 이러한 문제들을 해결하기 위한 방안으로 다양한 기술적 접근과 전략이 필요합니다.
PoC 결과와 분석
SK브로드밴드는 내부 데이터를 활용해 LLM의 RAG와 PEFT 기법을 비교하는 PoC(Proof of Concept)를 진행했습니다. 이 과정에서 각 기법의 장단점을 확인할 수 있었습니다. RAG는 최신 데이터 반영이 용이하고 첨부 자료 연결이 가능한 점이 강점입니다. 그러나 프롬프트 의존도가 높다는 것이 약점으로 작용합니다. PEFT는 도메인 데이터를 직접 학습해 강한 도메인 특화 능력을 보입니다. 그러나, 지속적인 데이터 업데이트가 어려운 점이 있었다. PoC 실험에서는 데이터 증강을 통해 데이터셋을 확대하여 모델의 성능을 향상시켰으며, 정량적 평가와 정성적 평가를 병행해 각 기법의 실제 효과를 측정했습니다. 결과적으로, 데이터셋의 크기가 커질수록 모델의 수렴 속도와 성능이 향상되는 것을 확인했습니다. 이를 통해, RAG와 PEFT 결합 솔루션이 각각의 단점들을 보완하며 장점을 극대화할 수 있음을 확인했습니다.
미래 방향성과 결론
이번 SK브로드밴드의 PoC에서 얻은 결과는 LLM, 특히 RAG와 PEFT 기법의 적용 가능성을 크게 넓혔습니다. 하지만, 현재의 성능은 즉각적인 실무 적응에는 다소 부족함이 있습니다. 향후 방향성으로는 더 큰 규모의 모델 혹은 고품질 인스트럭션 세트를 이용해 모델의 성능을 더욱 발전시킬 계획을 고민 중에 있습니다. 특히, 데이터 증강의 중요성과 고품질 데이터의 필요성을 다시금 깨닫게 된 기회였으며, 이를 반영해 다양한 데이터 보완 전략을 취할 예정입니다. 또한, 레그 아키텍처의 프롬프트 보강 및 임베딩 모델 개선 등을 통해 지속적인 발전을 희망하고 있습니다. 최종 목표는, 보다 완성도 높은 LLM 기반 솔루션을 만들어서 실제 서비스에 적용할 수 있는 수준으로 끌어올리는 것입니다. SK브로드밴드는 이를 통해 업무 효율성을 높이고, 나아가 시장 경쟁력 강화에 이바지하고자 합니다. 감사합니다.
제목
[SK TECH SUMMIT 2023] LLM 적용 방법인 RAG VS PEFT, Domain 적용 승자는?
설명
국내 최대 기술 컨퍼런스 'SK TECH SUMMIT 2023' 오늘의 기술이 만들어가는 더 편리하고 안전한 내일의 모습을 선보입니다. 최고의 기술 기업과 전문가들이 경험과 노하우를 나눈 특별한 발표 세션을 만나 보세요. [발표 내용] 이번 세션에서는 LLM을 특정 도메인에 맞춰 사용하는 방법 중, RAG와 PEFT를 중심으로 비교하여 설명해 드립니다. ChatGPT 공개 이후 다양한 LLM, 비교적 크기가 작은 sLLM 등의 모델들이 공개되고 있고, 기업에서는 이를 내부 데이터를 활용하여 자체 비즈니스에 최적화 된 챗봇으로 개발하려는 시도가 많습니다. 하지만 이미 방대한 규모의 데이터로 학습된 모델들을 회사가 가지고 있는 데이터로 Fine-tuning 하기엔 데이터의 양, 컴퓨팅 자원 등의 이유로 어려움이 따릅니다. 이를 해결할 방법으로 RAG, PEFT 방법이 활발하게 사용되고 있습니다. SK브로드밴드는 내부 가용 데이터(상담사 매뉴얼, 법무 검토 자료)로 LLM(sLLM)에 RAG, PEFT를 활용하여 PoC를 진행하였습니다. 이 과정에서 얻은 LLM(sLLM) 모델 활용을 위한 AWS 환경 구축 및 Domain 특화 LLM 모델 개발 관련 노하우들을 공유해 드리도록 하겠습니다. [발표자 소개] 김현석 (SK브로드밴드) 대학원에서 자율주행차량의 Perception, Path Planning, 그리고 설계 데이터 기반 딥러닝 모델링을 연구하였고, 이후 반도체 업계에서 잠시 ML Engineer로 근무했습니다. SK브로드밴드에서는 데이터 사이언티스트로서 NLP를 활용한 콘텐츠 메타데이터 발굴, 콘텐츠 시청 예측 과제 및 사내 데이터 교육 등을 수행하고 있습니다. 특정 도메인에 얽매이지 않는 데이터 사이언티스트가 되는 것을 목표로 열심히 성장하고 있는 3년차 주니어입니다. #SK TECH SUMMIT 2023 #SK테크서밋 #개발자컨퍼런스 #AI컨퍼런스