RAG学习笔记
RAG,全称 Retrieval Augmented Generation(检索增强生成)
大致分为两个阶段:
- 离线阶段:数据入库
- 在线阶段:检索生成
离线阶段主要做:
1 | 文档解析 → 数据清洗 → 文档分块 → 向量化 → 建索引 |
在线阶段主要做:
1 | 用户提问 → 查询改写 / 知识库选择 → 召回 → 重排 → Top K 过滤 → 拼接上下文 → 大模型生成回答 |
文档解析与数据清洗
文档解析
- 多格式适配: 兼容各种文件格式,如 PDF、Word、Markdown、HTML、JSON、TXT 甚至 Excel
- 内容提取: 从原始文件中剥离出“净文本”。
- 如果是 PDF,需要解析文字层;如果是扫描件,则需要 OCR。
- 如果是 HTML,需要剔除脚本、样式表,只保留正文。
- 元数据(Metadata)提取: 在提取文本的同时,记录文档的属性,如:文件名、页码、标题、作者、创建时间、章节层级等。
- 数据清洗: 去除文档中的冗余信息,如乱码、过多的空格、特殊的非打印字符、邮箱、版权声明、水印文案等。






