AI爬虫工作流-RAG内容更新补充
AI爬虫工作流
以下是预览内容,从我的思维导图文件中转换而来。具体流程设计参考Xmind思维导图。对应的工作流可以从思维导图文件中橙色标记位置找到并另存到本地去掉’.bak’后使用。
工作流思维导图下载
下载地址: 百度网盘 提取码: wmb3
前置条件
Docker
- 容器运行方式
DeepSeek官网获取API-KEY,本身支持FunctionCall功能
- 凌晨至3:00成本低
暂时未支持OpenAI-Compatible
- API兼容模式
LLM支持FunctionCall功能
- 所以无法使用联通提供的API
DeepSeek官网API
- 注册容易
n8n工作流本地部署
复制命令到cmd(Windows)或zsh(macOS)
docker volume create n8n_data
- 创建volume确保docker在重启后仍保留数据
docker run -it –rm –name n8n -p 5676:5678 -v n8n_data:/home/node/.n8n -v ~/Downloads/Markdown:/home/node -e N8N_COMMUNITY_PACKAGES_ALLOW_TOOL_USAGE=true docker.n8n.io/n8nio/n8n
- 注意命令行里设置的
“-v /Downloads/Markdown:/home/node”/Downloads/Markdown并注意冒号
根据实际下载后路径设置
- 回车运行
- 浏览器访问localhost:5676
- 准备导入工作流
crawl4ai本地部署
复制命令到cmd或zsh
docker run –rm -it -e CRAWL4AI_API_TOKEN=12345 -p 11235:11235 unclecode/crawl4ai:all-arm64
其中CRAWL4AI_API_TOKEN=12345为设置API,12345为KEY,运行前可实际调整
回车运行
- 浏览器访问localhost:11235,弹出crawl4ai文档页表明运行成功
注意命令中根据实际芯片情况调整“all-arm64”中为all-amd64(windows)或all-arm64(mac)
工作流Crawl2md
导入工作流
将文件Crawl2md.json.bak改名为Crawl2md.json
已经制作好的工作流,点击曲别针图标保存到本地待用
Crawl2md.json.bak
- AI-API用你自己的,别用我的,明儿个我就删了
单点任务请求时间已设置为7s,注意反爬机制
设置Limit,初始为2。不要设置太多,注意引发网站反爬机制
找到目标网站,域名后缀/sitemap.xml
将带有xml的可用域名直接拷贝到聊天框,回车运行开始爬虫流程,请耐心等待
无法sitemap的网站,使用https://www.xml-sitemaps.com/网站获取,实现爬取