断点续爬中的去重问题

15次阅读

共计 115 个字符,预计需要花费 1 分钟才能阅读完成。

没有用爬虫框架纯手撸 python 代码。

如果我在读取上次异常终止的参数后,插入数据库时检查记录是否存在(if exists),是否会很影响整体速度?虽然每条数据都会有一个唯一 id。需要爬的最终数据条数应该在几百万级(单指存 id 的表)。

正文完
 0