二.RAG开发基础篇 最后更新:2025年09月17日 作者:管理员 RAG架构原理深度剖析、RAG架构演进之路、微调和RAG方案选型、RAG的应用落地场景 #### RAG流程详情剖析 RAG:检索增强生成(Retrieval-augmented Generation)  大模型的痛点:幻觉(解决:提示词、RAG(范围))、大模型知识有限(解决:微调、RAG) RAG关键问题剖析:不同文本转换为Text、文档切割、向量化、向量数据库、向量检索、重排序、效果评估、 #### RAG架构演进之路  ##### Naive RAG  检索质量方面: 准确率低可能会导致幻觉、召回率低导致信息不完整、过时或者冗余的信息导致检索结果不准确 结果生成质量方面: - 幻觉问题,如果问题的答案未能被正确检索,生成的结果仍然会产生幻觉 - 答非所问,问题和答案未能正确匹配:生成有害和偏见的答案 增强过程的挑战 - 内容不连贯/脱节 - 冗余和重复 - 生成结果可能过渡依赖增强信息,导致和增强信息相比没有带来额外的收益 ##### Advanced RAG - 增强数据粒度:修订和简化数据内容,确保正确性和可读性;删除不相关信息,消除歧义,确认事实准确性,维护上下文连贯性。 - 优化索引结构:调整chunk大小以捕捉相关上下文,利用图数据索引l中的节点关系,实现跨索引|路径查询。 - 层级索引:构建多层索引结构以提高检索效率。 - 加入元数据信息:使用如日期标签等元数据加强时间敏感数据的检索,强调最新信息的相关性。 - 混合检索与对齐优化:采用混合检索方法,并通过为每个chunk创建假设性问题来解决文档间的不一致问题。  Retrieval: 微调Embedding模型:利用特定场景的预料去微调embedding模型将知识嵌入到模型中。 Post-Retrieval - ReRank:前文提及的检索召回阶段一般直接对query和chunks的embedding向量进行相似性召回,无法捕捉query和chunk的复杂语义关系。Rerank阶段可以设计更加复杂的模块对召回的结果进行精细化的排序,从而提高召回的质量。 - Prompt Compression:研究表明,检索到的文档中的噪声会对 RAG 性能产生不利影响。在后期处理中,重点在于压缩无关上下文、突出关键段落、减少整体上下文长度。Selective Context 和 LLMLingua 等方法利用小语言模型来计算即时互信息或困惑度,估计元素重要性。  #### 微调和RAG方案选型 RAG: Prompt -> LLM + 知识 -> 答案 微调: Prompt -> LLM (LLM + 知识) -> 答案 场景选型: - 模型能力定制:微调 - 智能设备:微调 - 响应有要求:微调 - 动态数据:RAG - 幻觉:RAG - 可解释性:RAG - 成本:RAG - 依赖生成能力:RAG #### RAG的应用落地场景 - 智能客服系统:利用大模型和知识库创建智能客服系统,解决常见问题,提高客户支持效率。 - 内部知识管理:建立内部知识库,方便员工查找公司政策、技术文档、培训材料等资源。 - 金融风险管理:分析财务报告、市场趋势等数据,帮助金融机构进行风险评估和投资决策。 - 智能旅游系统:提供目的地介绍、旅行路线规划、酒店预订和景点推荐等服务。 - 人力资源管理:提供员工手册、政策文档等信息,帮助员工快速解决问题,减轻HR部门负担。 - 医生助手系统:微调一个经验丰富的医生,把智能医生提供到3,4线城市的医生,提高全国的医疗水平。 - 教育辅导:利用知识库为学生提供学习资料、课程解答等教育资源,辅助教学过程。 - 法律咨询服务:为客户提供法律条款、案例分析等信息,帮助解决法律问题。