GPTCrawler

4周前发布 5 00

gpt-crawler是由BuilderIO发起的一个开源项目，旨在帮助用户通过爬取网站内容来生成知识文件，从而创建自定义的GPT。这个工具特别适用于希望基于特定网站内容（例如文档、教程、FAQ等）构建定制化问答系统的场景。...

收录时间：

2024-11-29

打开网站手机查看

GPTCrawler

gpt-crawler 是由 BuilderIO 发起的一个开源项目，旨在帮助用户通过爬取网站内容来生成知识文件，从而创建自定义的 GPT。这个工具特别适用于希望基于特定网站内容（例如文档、教程、FAQ等）构建定制化问答系统的场景。

简单理解的话，gpt-crawler 就是爬虫 + OpenAI 的结合体，比如你想构建一个擅长解答法律的AI助手，就可以通过 gpt-crawler 爬取法律相关数据，然后上传到OpenAI。

如果我不想上传到OpenAI怎么办？其实你思维可以发散一下，我前面讲到的PrivateGPT恰好就提供了一个API，并且它遵循并扩展了OpenAI API标准，所以你其实可以将 gpt-crawler + PrivateGPT 结合，这样就可以构建一个属于自己的AI助手。

目前 gpt-crawler 支持对单个URL爬取，如果要爬取多个URL，你就必须提供一个 sitemap.xml 的链接，比如 https://builder.io/sitemap.xml

如果你要爬取的网站没有提供 sitemap.xml，或者你想同时爬取多个网站的链接，有两种办法，一是通过 npm run start:server 启动 gpt-crawler 的API服务器，然后通过 /crawl 端点发送 POST 请求来实现；第二需要稍微改动下源码，加个配置，然后在获取下载链接的地方替换成多个URL。

数据统计

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

GPTCrawler

数据统计

相关导航

天工智码SkyCode

Wegic AI

Solo AI

CodeGeeX

GitHub Copilot

Cody

Pix2Code

百度 Comate 智能编码助手

暂无评论