第 1 篇:专栏总览——RAG 检索增强生成实战系列学习路线与学习指南

本文为「从零到落地:RAG 检索增强生成实战系列」第 1 篇,完整系列持续更新中。


前言

本系列入口篇,帮你快速了解这个系列写什么、每篇讲什么、该怎么读。

RAG(检索增强生成)是当前大模型落地最主流的技术方案——简单说就是给大模型外挂一个知识库,让回答有据可查、有据可依。企业知识库问答、智能客服、私有数据检索、编程助手,背后都是 RAG 在驱动。

本系列从零开始,覆盖 RAG 的原理认知、技术选型、5 种主流实战方案、全链路优化、高阶变种,共 9 篇核心正文 + 持续拓展连载,目标只有一个:让你看完就能动手搭一个能用的 RAG 系统

本篇学完你将掌握

  • 本系列完整学习路线和每篇文章内容概览
  • 不同基础的读者该怎么高效学习
  • 系列统一的环境和工具版本

一、专栏学习路线图

整个系列分为 5 大板块,推荐学习路线如下:

1
2
3
4
5
graph LR
A["板块一:认知基础\n第1-2篇"] --> B["板块二:技术选型\n第3篇"]
B --> C["板块三:框架实战\n第4-8篇"]
C --> D["板块四:优化进阶\n第9篇"]
D --> E["板块五:高阶拓展\n第10篇+"]
板块 篇目 核心目标 适合跳读?
板块一:认知基础 第 1-2 篇 搞懂 RAG 是什么、全流程怎么走 有基础可跳过
板块二:技术选型 第 3 篇 搞清楚我该用什么方案 强烈建议读
板块三:框架实战 第 4-8 篇 5 种主流方案逐个动手实现 按需求挑读
板块四:优化进阶 第 9 篇 跑通基础后,全链路优化到生产级 实战后必读
板块五:高阶拓展 第 10 篇+ GraphRAG、多模态、Agentic RAG 等变种 按需选读

二、全系列文章目录

每篇文章均包含内容摘要和跳转链接,点击标题可直接跳转到对应文章。

板块一:认知基础

篇目 标题 内容摘要 状态
第 1 篇 专栏总览(本篇) 系列地图,帮你规划学习路径 已完成
第 2 篇 RAG 核心原理拆解 用流程图和类比讲透 RAG 的完整技术链路:文档加载→文本分块→向量化→检索→生成。拆解每个核心组件(分块器、Embedding 模型、向量库、LLM、Prompt)的作用,分析基础 RAG 的优缺点,为后续增强技术埋伏笔 已完成

板块二:技术选型

篇目 标题 内容摘要 状态
第 3 篇 RAG 主流搭建方案与技术选型 深度对比四大搭建模式(低代码平台 / 代码框架自研 / 云端 SaaS / 私有化套件),每种讲清定义、代表产品、优缺点、适用场景。用一张能力档位表速览 10 种 RAG 变种,最后给出按场景推荐的选型决策表,帮你避免”选错方案浪费一周” 已完成

板块三:框架实战(5 种主流 RAG 实现)

5 篇文章覆盖 RAG 的 5 大主流实现路线:纯手写、低代码、代码编排、RAG 专用框架、私有化套件。每种路线挑一个最具代表性的工具完整实战。

篇目 标题 实现路线 内容摘要 状态
第 4 篇 原生 Python 手写最简 RAG 纯手写 不用任何框架,5 步手写一个完整 RAG:加载文档→文本分块→向量化→检索→生成。代码逐行注释讲解,帮你理解框架底层到底做了什么。末尾指出原生方案的缺陷,引出框架的价值 已完成
第 5 篇 Dify 社区版搭建 RAG 低代码平台 Dify 社区版本地部署实战:Docker 一键部署→模型接入(API + Ollama)→知识库搭建(三种分块策略 + 混合检索 + Rerank)→对话应用创建→API 调用与外部系统集成。零代码可视化操作,从部署到上线完整走一遍,最后总结 Dify 优缺点和适用边界 已完成
第 6 篇 LangGraph 代码编排 RAG 代码编排框架 LangGraph 状态机 + 图编排实战:四个核心概念(State/Node/Edge/条件边)→ 基础 RAG 双节点图(检索+生成)→ MemorySaver 多轮对话记忆 → 条件路由 + 质量评估 + Query 改写自我修正 → RAG + Agent 工具调用融合 → 与 Dify 详细取舍对比。完整代码逐行讲解 已完成
第 7 篇 LlamaIndex 实现 RAG RAG 专用框架 LlamaIndex 专为 RAG 设计的框架实战:4 行代码跑通基础 RAG → 核心概念深入(Documents/Nodes/Index/QueryEngine)→ 进阶配置(5+ 分块器 + 混合检索 + Reranker)→ ChatEngine 多轮对话 → Agent 工具调用 + CSV 结构化查询 → 与 LangGraph 框架选型对比。API 最简洁,RAG 场景效率最高 已完成
第 8 篇 RAGFlow 私有化套件实战 私有化套件 RAGFlow 一体化开源 RAG 系统,Docker Compose 一键私有化部署。完整实战:部署→模型接入(API + 本地 Ollama)→深度文档解析(PDF/表格/图片,支持 DeepDoc/MinerU/Docling)→知识库搭建→RAPTOR 层次化摘要索引→Agent 工作流→API 调用。末尾与 Dify 做平台选型对比 规划中

板块四:优化进阶

篇目 标题 内容摘要 状态
第 9 篇 RAG 全链路增强技术 五维增强体系(查询/索引/检索器/生成器/管道),14 种增强策略全覆盖:假设问题法、HyDE、子查询分解、回溯提示、自动合并、分层索引、混合检索+Rerank、句子窗口、元数据过滤、提示压缩、块顺序调整、自我反思、查询路由。从基础到生产的三级配置方案 已完成

板块五:高阶拓展(持续更新)

高阶变种和拓展主题,每个独立成篇,按需学习。

方向 主题 内容摘要 状态
高阶变种 GraphRAG 从零实现 用知识图谱增强 RAG:实体抽取、图谱构建、向量 + 图谱混合检索 规划中
高阶变种 多模态 RAG 实战 图文、表格、PDF 混合检索问答:OCR、多模态 Embedding、布局分析 规划中
高阶变种 Agentic RAG 让 Agent 自主决定检索策略,Agent + RAG 深度融合 规划中
高阶变种 AutoRAG 自动化调优 自动分块策略、Prompt 优化、效果评估、版本迭代 规划中
高阶变种 实时 RAG 数据增量更新 + 流式问答,对接业务数据库近实时刷新 规划中
高阶变种 Code RAG 代码仓库检索与编程助手,代码分词、语法感知分块 规划中
其他框架 原生 LangChain 实现 RAG 对比 LangGraph,讲清两者的差异和适用场景 规划中
其他套件 FastGPT 搭建知识库 对比 Dify / RAGFlow,讲清各平台的差异和适用场景 规划中
工程化 生产部署与运维 RAG 容器化部署、性能压测、监控告警 规划中
工程化 常见问题踩坑汇总 幻觉、检索失效、分块不合理等典型问题排查与解决 规划中
工程化 RAG 性能压测与优化 检索速度优化、并发调优、吞吐量测试 规划中
特殊场景 离线纯本地 RAG 全栈本地模型,无公网 API,断网环境运行 规划中
特殊场景 百万级文档海量 RAG 优化 分库、分片、分布式检索策略 规划中
高阶融合 LangGraph + Dify 混合方案 两者结合的混合架构设计与实现 规划中
高阶融合 RAG + Agent 复杂业务实战 RAG + 函数调用 + Agent 处理复杂业务流程 规划中

三、学习建议

不同背景的读者,推荐不同的学习路径:

路径一:零基础新手(推荐完整学习)

1
第 1 篇(本篇)→ 第 2 篇(原理)→ 第 3 篇(选型)→ 第 4 篇(手写 RAG)→ 第 5 篇(Dify)→ 第 6 篇(LangGraph)→ 第 9 篇(优化)

从头到尾建立完整认知,先理解原理再动手,最后学优化。

路径二:有基础,想快速上手

1
第 3 篇(选型)→ 挑一篇你最想学的实战篇(第 5/6/7/8 篇)→ 第 9 篇(优化)

跳过原理和手写入门,直接从选型开始,选完方案直接实战。

路径三:架构师 / 技术负责人

1
第 3 篇(选型)→ 第 9 篇(优化)→ 按需学习实战篇

重点看选型决策和优化策略,实战篇作为参考按需翻阅。

路径四:只想学某个工具

直接跳到对应实战篇:

想学的工具 推荐学习
Dify 第 5 篇
LangGraph 第 6 篇
LlamaIndex 第 7 篇
RAGFlow 第 8 篇

💡 建议:不管哪条路径,第 3 篇(选型篇)都建议读一下,能帮你避免”选错方案浪费一周”的情况。


四、前置知识与环境准备

4.1 知识储备要求

前置知识 需要掌握的程度 零基础怎么办
Python 会写函数、会用 pip 装包 先花 2-3 小时过一遍 Python 基础教程
大模型概念 知道 Token、Prompt、API 调用是什么 第 2 篇会做基础科普
向量基础 知道”向量”是用来表示语义的数字数组即可 第 2 篇会讲清楚
Docker 会基本命令即可(部分实战篇用到) 遇到时再学,不影响前面内容

4.2 统一环境版本

环境项 版本 说明
Python 3.11 当前主流稳定版本,兼容性好
pip 最新版 安装前先 python -m pip install --upgrade pip
Docker 24.0+ Dify、RAGFlow 部署需要,其他篇可选
操作系统 Windows / macOS / Linux 均可 命令差异处会单独标注

4.3 测试文档集

系列所有实战篇统一使用同一组测试文档进行演示,方便你在不同方案之间做效果对比:

  • 一份产品介绍文档(PDF)
  • 一份 FAQ 问答文档(Markdown)
  • 一份包含表格的技术规格文档

💡 提示:测试文档会在第 4 篇(原生 Python 实战)首次出场时提供,后续各篇复用。


总结与回顾

要点 总结
本系列覆盖范围 原理→选型→5 种实战→优化→高阶变种,全链路 9 篇 + 拓展连载
核心定位 全链路覆盖、代码可运行、有踩坑记录、每篇独立可读
统一环境 Python 3.11、Docker 24.0+
学习建议 新手顺序学、有基础跳选型+实战、架构师重点看选型+优化

下篇预告

第 2 篇:RAG 核心原理拆解 —— 用流程图和类比讲透 RAG 的完整技术链路,不堆公式,看完你就能画出 RAG 的完整数据流。


本文为「从零到落地:RAG 检索增强生成实战系列」第 1 篇,完整系列持续更新中。