【AI】十二.Retrievers检索器+RAG文档助手项目实战
什么是Retriever 统一接口:标准化检索流程,无论数据来源如何,最终输出`Document`对象列表。 多源混合检索:支持同时查询向量库、传统数据库和搜索引擎【提高召回率】
什么是Retriever 统一接口:标准化检索流程,无论数据来源如何,最终输出`Document`对象列表。 多源混合检索:支持同时查询向量库、传统数据库和搜索引擎【提高召回率】
安装 Milvus Python SDK, 支持 Python、Node.js、GO 和 Java SDK。 建议安装与所安装 Milvus 服务器版本相匹配的 PyMilvus 版本
向量数据库介绍和技术选型思考 为什么要用向量数据库,不能用MySQL存储 文档块通过嵌入模型处理后得到对应向量,下一步就是将向量存储到数据库中,方便后续进行检索使用
什么是文本嵌入Text Embedding 文本嵌入(Text Embedding)是将文本(单词、短语、句子或文档)映射到高维向量空间的技术。
向量就是一串有序的数字,像一条带方向的“箭头”, 在机器学习里面尤其重要
RAG系统链路构建之文档切割转换 构建RAG系统:涉及的技术链路环节: 文档加载器->文档转换器->文本嵌入模型->向量存储->检索器
RAG系统链路和数据加载Loaders技术 RAG系统与LLM交互架构图 注意 万丈高楼平地起,基础需要打牢固,一步步进行,然后学会举一反三使用 如果直接讲Agent智能体
“幻觉输出”(Hallucination)是大语言模型(如GPT、Llama、DeepSeek等)生成内容时的一种常见问题. 指模型输出看似合理但实际错误、虚构或脱离事实的信息。
Pydantic 是一个在 Python 中用于数据验证和解析的第三方库,是 Python 使用最广泛的数据验证库 声明式的方式定义数据模型和,结合Python 类型提示的强大功能来执行数据验证和序列化
什么是Chain链 是构建语言模型应用的核心组件,用于将多个模块(如模型调用、提示模板、记忆系统等)组合成可复用的工作流程。