分享一个快速构建 Web Scraper API 的开源工具,只要你会 css 选择器 / JQ 就能快速上手,简单易用。

14次阅读

共计 511 个字符,预计需要花费 2 分钟才能阅读完成。

工具地址: https://github.com/serping/express-scraper

之前发布的工具 Cheerio Tree , 由于还没有文档,没有点代码功底,很难理解工作逻辑。

文档和 DEMO 会陆续更新,此工具拉回来就有简单的 DEMO 用例。

线上的 DEMO,Scraper API 地址,可以直接打开访问。

https://www.proxysites.ai/category

https://wordpress.com/tags

本工具支持 Vercel 部署,比 nextjs 轻量,vercel 部署时间 20 ~ 30s

特色

  • 数据结构清晰,便于维护,可以 debug 具体 DOM 节点
  • 快速构建页面 API
  • 自动转换 YAML 为 JSON 变量
  • 根据目录结构生成 typescript 文件

核心工具包

  • expressjs
  • Cheerio – 基于 css 选择器
  • Cheerio Tree – 树结构 HTML 解析器(TO JSON

关于部署

由于还是个 nodejs 新手,不知道 vercel 如何自动部署 ts 版的 express,

目前处理方式是 build 输出到 dist,然后通过配置 vercel.json 实现部署。

如果更新代码忘记 build,就不会发布最新代码。。。希望哪个大佬可以指点下迷津!

正文完
 0