Part 2.从零到一快速搭建多模态RAG引擎

课程说明：

•

体验课内容节选自《2025大模型Agent智能体开发实战》(秋招冲刺班)完整版付费课程

体验课时间有限，若想深度学习大模型技术，欢迎大家报名由我主讲的《2025大模型Agent智能体开发实战》(秋招冲刺班)

common.docs_name - LarkCCM_Docs_Menu_Image

65%

35%

公开课全套学习资料，已上传至网盘（https://pan.baidu.com/s/1vV-8ew5tAfZOfwG3c4WAFw 提取码: i345）需要更系统深入学习大模型vx可扫码⬆️添加助教咨询喔～

Part 2.从零到一快速搭建多模态RAG引擎

•
本期公开课四大模块内容​

•
【演示】实操项目一：从零到一快速搭建多模态RAG系统​

•
【演示】实操项目二：企业级多模态RAG系统开发实战​

一、结构解析重建法多模态检索流程

1. 从零到一快速搭建多模态RAG系统基本思路

        接下来就让我们上手结构解析重建法来从零搭建多模态检索流程。在前面对多模态 PDF 检索的难点与主流开源项目的梳理之后，我们已经建立起一个清晰的认知框架：单纯依赖文本检索无法应对 PDF 文档中复杂的多模态内容，而仅仅依赖 OCR 也难以保留完整的结构信息。因此，真正可落地的解决方案往往需要结合文档解析与结构化重建。​

        接下来就让我们上手 结构解析重建法 来从零搭建多模态检索流程。所谓“结构解析重建”，本质上是对原始 PDF 文档进行分层解析，将其中的 标题、段落、表格、图片、公式等元素逐一抽取，并依据其在文档中的位置和语义关系重新组织，再转化为一种更适合下游检索系统（如 RAG）的结构化表示形式。​

        在本节中，我们将以 Unstructured + PaddleOCR 为核心工具链，演示如何从 PDF 文档中自动解析多模态内容，并将其重建为 Markdown 格式文档。这一过程不仅能保留段落的层次结构，还能提取并本地保存图片、表格等元素，最终得到一份既可读又可检索的中间产物，为后续的向量化与知识检索打下坚实基础。​

•
最终效果演示：​

•
多模态PDF文档文字、标题、图片、表格多模态识别​

多模态PDF图片文字识别与表格内容识别

多模态PDF逆向转化为Markdown

Part 2.从零到一快速搭建多模态RAG引擎​

Part 2.从零到一快速搭建多模态RAG引擎