分享一个用于增强 RAG 应用的模块 — Web Scraper

21次阅读

共计 576 个字符，预计需要花费 2 分钟才能阅读完成。

最近自己在做一个 RAG 应用，感兴趣的朋友可以尝试一下，https://www.zbyai.com

其中有一个功能是需要根据搜索到的 URL 去获取页面的具体内容，这个内容需要处理一下对 LLM 友好一点（Token 少一点），所以我选择处理成 Markdown。

所以就有了这么一个项目：https://github.com/zzzgydi/webscraper

原理比较简单：使用无头浏览器或者直接 GET 请求，然后用 Readability.js 进行优化，然后 html 转 markdown。然后每个请求默认 5 秒超时。

使用：u 后面加对应的 url 链接即可。

curl https://scraper.zbyai.com/?u=https://github.com/zzzgydi/webscraper

也可以用 POST 请求：

curl -X POST -H "Content-Type: application/json" 
     -d '{"url_list":["https://github.com/zzzgydi/webscraper"]}' 
     https://scraper.zbyai.com/v1/scrape

可以用 demo 看看效果：https://scraper.zbyai.com/?u=https://github.com/zzzgydi/webscraper，也可以自行 docker 部署。

正文完

发表至： V2EX

2024-04-16

0

有没有前端项目适配目前最强的 AI 模型 Claude-3-Opus ？

想读写一个 word 文档，把大量数据格式化写入，哪个程序框架好用一些

关于乔斯伯 N2 后面那块板子的疑问

适合湿疹用的护手霜、身体乳，有什么推荐的牌子吗？

有没有自建 NAS 的方案，求大神推荐

分享一个用于增强 RAG 应用的模块 — Web Scraper

刷不动了：盒子上傳三倍計算的新增要求

【NEW】常用脚本大全

freewhale 跑路了吗？

过瘾！爽！看了潍坊酒店8203红裤衩瓜视频

Vidhub 收费 88 元终身，建议购买吗？