.
1. LLM의 한계 극복을 위한 RAG(Retrieval-Augmented Generation) 진화의 개요
가. Naive RAG의 한계와 고도화의 필요성
기존 Naive RAG는 고정된 'Indexing $\rightarrow$ Retrieval $\rightarrow$ Generation'의 단선적 파이프라인을 가짐.
이로 인해 저품질 검색(Low Precision), 컨텍스트 누락(Recall 이슈), 환각 현상(Hallucination) 및 최신성 부족 문제를 노출하여 아키텍처 고도화가 필연적으로 요구됨.
나. Advanced RAG와 Modular RAG의 개념적 정의
Advanced RAG: 검색 전/후(Pre-Retrieval / Post-Retrieval) 단계를 추가하여 검색의 정확도와 생성 품질을 국소적으로 보완한 아키텍처 패턴.
Modular RAG: 모듈화(Modularity)와 다형성(Polymorphism)을 도입하여, 고정된 흐름을 탈피하고 라우팅, 루프(Feedback), 외부 도구 연동 등을 자유롭게 재구성하는 격자형·적응형 아키텍처 패턴.
2. Advanced RAG vs Modular RAG 아키텍처 및 메커니즘 비교
두 아키텍처는 검색-생성 파이프라인의 '유연성'과 '제어 흐름(Control Flow)' 측면에서 가시적인 구조적 차이를 보인다.
가. Advanced RAG의 핵심 기술 및 메커니즘 (순차적 고도화)
Pre-Retrieval (검색 전): Query Rewriting(질의 재작성), Query Expansion(질의 확장)을 통해 사용자의 모호한 질문을 벡터 DB 검색에 최적화된 형태로 변환.
Post-Retrieval (검색 후): Reranking(재정렬) 알고리즘(예: Cross-Encoder)을 적용하여 유사도 점수가 높지만 실제 맥락상 부적합한 문서를 필터링하고 Top-$K$ 컨텍스트를 재배치.
나. Modular RAG의 핵심 기술 및 메커니즘 (동적 모듈화)
Routing (라우팅 모듈): 사용자 질의의 의도를 LLM이 판단하여 Web Search, Vector DB, Graph DB 등 최적의 데이터 소스로 동적 분기.
Iterative/Inverted Loop (반복 및 피드백): 생성된 답변의 품질이 미흡할 경우(자가 진단), 자동으로 검색 단계를 재수행하는 Self-RAG 및 국소 루프 구조 구현.
Orchestration (오케스트레이션): LangChain, LlamaIndex, 혹은 에이전트(Agentic) 프레임워크를 활용하여 필요에 따라 모듈을 조립·확장.
3. Advanced RAG와 Modular RAG의 핵심 특성 비교 매트릭스
| 비교 항목 | Advanced RAG (진화형 RAG) | Modular RAG (모듈형/에이전트형 RAG) |
| 파이프라인 구조 | 선형적/순차적 구조 (Linear Pipeline) | 비선형적/동적 구조 (DAG, Graph, Loop) |
| 핵심 접근 방식 | 검색 전/후 처리 프로세스의 강화 | 모듈의 독립성 확보 및 동적 흐름 제어 |
| 컨텍스트 최적화 | Chunking 전략 고도화, Reranking 활용 | 다중 데이터 소스 라우팅, 하이브리드 검색 |
| 주요 기술 요소 | Query Deconstruction, Sentence Window, Cross-Attention Reranker | Routing, Iterative Retrieval, Evaluator, Sub-Query Execution |
| 구현 복잡도 | 보통 (기존 Naive RAG에서 컴포넌트 추가) | 높음 (에이전트 로직 및 상태 관리 필요) |
| 적용 적합 시나리오 | 특정 도메인의 지식 베이스 검색 고도화 | 복잡한 추론, 멀티스텝 질의, 데이터 소스가 다변화된 엔터프라이즈 환경 |
4. 기술사 관점의 엔터프라이즈 RAG 구축 시 고려사항 및 제언
가. 비용(Cost)과 지연 시간(Latency)의 트레이드오프(Trade-off) 관리
문제점: Modular RAG의 루프(Loop) 구조와 Advanced RAG의 다중 Reranking은 LLM API 호출 횟수를 증가시켜 토큰 비용과 추론 지연 시간(Latency)을 악화시킴.
대응 방안: 가벼운 로컬 오픈소스 SLM(Small Language Model)을 라우터 및 평가기(Evaluator)로 배치하고, 핵심 추론에만 고성능 LLM을 활용하는 하이브리드 모델 라우팅 전략 수립 필요.
나. 데이터 거버넌스 및 RAG 평가 체계(RAGAs) 도입
아무리 아키텍처가 고도화되어도 소스 데이터(Raw Data)의 품질이 낮으면 'Garbage In, Garbage Out' 발생.
문맥 유사도(Context Relevance), 답변 실성(Faithfulness), 답변 유의성(Answer Relevance)을 정량적 수치 기반으로 상시 모니터링하는 RAGAs(RAG Assessment) 프레임워크를 CI/CD 파이프라인에 통합하여 지속적인 아키텍처 튜닝 체계를 확보해야 함.
댓글 없음:
댓글 쓰기