共计 576 个字符,预计需要花费 2 分钟才能阅读完成。
最近自己在做一个 RAG 应用,感兴趣的朋友可以尝试一下,https://www.zbyai.com
其中有一个功能是需要根据搜索到的 URL 去获取页面的具体内容,这个内容需要处理一下对 LLM 友好一点(Token 少一点),所以我选择处理成 Markdown。
所以就有了这么一个项目:https://github.com/zzzgydi/webscraper
原理比较简单:使用无头浏览器或者直接 GET 请求,然后用 Readability.js 进行优化,然后 html 转 markdown。然后每个请求默认 5 秒超时。
使用:u 后面加对应的 url 链接即可。
curl https://scraper.zbyai.com/?u=https://github.com/zzzgydi/webscraper
也可以用 POST 请求:
curl -X POST -H "Content-Type: application/json"
-d '{"url_list":["https://github.com/zzzgydi/webscraper"]}'
https://scraper.zbyai.com/v1/scrape
可以用 demo 看看效果:https://scraper.zbyai.com/?u=https://github.com/zzzgydi/webscraper,也可以自行 docker 部署。
正文完