AI爬虫工作流-RAG内容更新补充

AI爬虫工作流

以下是预览内容,从我的思维导图文件中转换而来。具体流程设计参考Xmind思维导图。对应的工作流可以从思维导图文件中橙色标记位置找到并另存到本地去掉’.bak’后使用。

工作流思维导图下载

下载地址: 百度网盘 提取码: wmb3

前置条件

Docker

  • 容器运行方式

DeepSeek官网获取API-KEY,本身支持FunctionCall功能

  • 凌晨至3:00成本低

暂时未支持OpenAI-Compatible

  • API兼容模式

LLM支持FunctionCall功能

  • 所以无法使用联通提供的API

DeepSeek官网API

  • 注册容易

n8n工作流本地部署

复制命令到cmd(Windows)或zsh(macOS)

  • docker volume create n8n_data

    • 创建volume确保docker在重启后仍保留数据
  • docker run -it –rm –name n8n -p 5676:5678 -v n8n_data:/home/node/.n8n -v ~/Downloads/Markdown:/home/node -e N8N_COMMUNITY_PACKAGES_ALLOW_TOOL_USAGE=true docker.n8n.io/n8nio/n8n

    • 注意命令行里设置的

“-v /Downloads/Markdown:/home/node”
根据实际下载后路径设置
/Downloads/Markdown并注意冒号

- 回车运行

    - 浏览器访问localhost:5676

        - 准备导入工作流

crawl4ai本地部署

复制命令到cmd或zsh

  • docker run –rm -it -e CRAWL4AI_API_TOKEN=12345 -p 11235:11235 unclecode/crawl4ai:all-arm64

    • 其中CRAWL4AI_API_TOKEN=12345为设置API,12345为KEY,运行前可实际调整

    • 回车运行

      • 浏览器访问localhost:11235,弹出crawl4ai文档页表明运行成功
  • 注意命令中根据实际芯片情况调整“all-arm64”中为all-amd64(windows)或all-arm64(mac)

工作流Crawl2md

导入工作流

  • 将文件Crawl2md.json.bak改名为Crawl2md.json

  • 已经制作好的工作流,点击曲别针图标保存到本地待用

  • Crawl2md.json.bak

    • AI-API用你自己的,别用我的,明儿个我就删了
  • 单点任务请求时间已设置为7s,注意反爬机制

  • 设置Limit,初始为2。不要设置太多,注意引发网站反爬机制

  • 找到目标网站,域名后缀/sitemap.xml

  • 将带有xml的可用域名直接拷贝到聊天框,回车运行开始爬虫流程,请耐心等待

  • 无法sitemap的网站,使用https://www.xml-sitemaps.com/网站获取,实现爬取

AI环节涉及的DeepSeek提示词已填好

初始爬取限制2任务可修改

实现作用

爬取互联网内容到本地

转换成Markdown文件

形成QA问答内容

投喂本地RAG知识库

文件名已优化为当前日期格式,以免过长无法正常获取文件

实现RAG知识内容不断更新,避免过时


AI爬虫工作流-RAG内容更新补充
https://alphaorionis.top/2025/05/31/AICrawler/
作者
Libo Yu
发布于
2025年5月31日
许可协议