纯浏览器实现的 pdf 转 markdown

7次阅读

共计 616 个字符,预计需要花费 2 分钟才能阅读完成。

主要目的是提取纯文本方便 chatgpt

https://gist.github.com/taowen/4ce9de62255ded695db106ded4aa18c1

  • pdf.js 可以提取所有的 TextItem 包括文本和包围盒
  • 根据包围盒可以大致判断一下是否换行了
  • 如果一行中包含了公式,那么一行会有很多个 TextItem,这些行会称之为 complex 的行
  • 多个连续的 complex 行变成了 complex 块
  • 如果有 claude 3 haiku 的账号会对 complex 块做一次基于图片的 OCR 来清洗嘈杂的带公式的文本

除了 pdf 还有几个纯浏览器的小工具方便用来提取纯文本

正文完
 0