AI爬虫工作流-使RAG内容及时更新补充

AI爬虫工作流

根据网站内容自动生成几个QA,自动以日期格式保存为Markdown格式。用于扩充RAG或微调资料。

以下是预览内容,从我的思维导图文件中转换而来。具体流程设计参考Xmind思维导图。对应的工作流可以从思维导图文件中橙色标记位置找到并另存到本地去掉’.bak’后使用。

工作流思维导图下载

下载地址: 百度网盘 提取码: wmb3

前置条件

Docker

DeepSeek官网获取API-KEY,本身支持FunctionCall功能

暂时未支持OpenAI-Compatible

LLM支持FunctionCall功能

DeepSeek官网API

n8n工作流本地部署

复制命令到cmd(Windows)或zsh(macOS)

crawl4ai本地部署

复制命令到cmd或zsh

工作流Crawl2md

导入工作流

AI环节涉及的DeepSeek提示词已填好

初始爬取限制2任务可修改

实现作用

爬取互联网内容到本地

转换成Markdown文件

形成QA问答内容

投喂本地RAG知识库

文件名已优化为当前日期格式,以免过长无法正常获取文件

实现RAG知识内容不断更新,避免过时


AI爬虫工作流-使RAG内容及时更新补充
https://alphaorionis.top/2025/05/31/AICrawler/
作者
Libo Yu
发布于
2025年5月31日
许可协议