纯浏览器实现的 pdf 转 markdown

7次阅读

共计 616 个字符，预计需要花费 2 分钟才能阅读完成。

主要目的是提取纯文本方便 chatgpt

https://gist.github.com/taowen/4ce9de62255ded695db106ded4aa18c1

pdf.js 可以提取所有的 TextItem 包括文本和包围盒
根据包围盒可以大致判断一下是否换行了
如果一行中包含了公式，那么一行会有很多个 TextItem，这些行会称之为 complex 的行
多个连续的 complex 行变成了 complex 块
如果有 claude 3 haiku 的账号会对 complex 块做一次基于图片的 OCR 来清洗嘈杂的带公式的文本

除了 pdf 还有几个纯浏览器的小工具方便用来提取纯文本

https://gist.github.com/taowen/95ae056924f33bafa809cb4147e52566 HTML 转 markdown。本地用 turndown.js 实现的
https://gist.github.com/taowen/2a49387d5abc195ba57acbb94f4dd28f youtube 字幕提取
https://gist.github.com/taowen/3a0ee294ae60fd7e8f14f4af81edf38e arxiv 论文转 markdown
https://marketplace.visualstudio.com/items?itemName=taowen.repo-to-prompt github.dev 代码仓库转 prompt

正文完

complex pdf 文本

发表至： V2EX

2024-04-13

0

Windows 10 台式电脑桌面一直刷新

有没有一种桌面手机支架，支持有线 typec 连接的？

推荐一下 revios

五一有没有人想体验农村开荒除草等生活的？可以来肇庆广宁免费体验

S7，健康度 84，已过保，想换电，请推荐渠道？

请问大家是如何看待收入与消费的

热门文章