AI | ML | LLM
2025. 9. 1.
LangChain - 텍스트 분할(Text Splitter)
문서분할은 RAG 시스템의 두 번째 단계로, 로드된 문서들을 LLM모델이 효울적으로 처리하고 활용할 수 있게 작은 규모로 나누어 준비하는 단계입니다. 왜 분할을 해야하는가1. 정확성문서를 세분화 하여 질문에 연관성 있는 정보만 추출할 수 있도록 도와주고 제공하는 답변 또한 관련성이 높은 정보를 제공하기 위함입니다.2. 효율성LLM에 입력하는 데이터의 양을 효울적으로 사용하여 비용을 절감할 수 있고 필요한 정보만을 제공하여 할루시네이션 감소에 도움을 주기 위함입니다.문서분할 과정1. 구조 파악PDF, Web, E-Book 등 다양한 형식의 문서의 구조를 파악합니다.헤더, 푸터, 번호, 제목 등 식별 과정을 거칩니다.2. 단위 선정문서를 나눌 단위를 선정합니다, 페이지, 섹션, 문단 등으로 나누며 문서의 내..