如何高效存储和管理爬虫抓取的数据,以便后续清洗和转换?

11次阅读

共计 208 个字符,预计需要花费 1 分钟才能阅读完成。

在进行数据采集、清洗和转换的过程中, 经常会出现重复处理同一批数据的情况 。例如,在需求初期不需要年份信息,但后续又需要添加年份信息。如果每次都重新采集数据,会非常麻烦且低效。

为了解决这个问题,我设想应该将爬虫抓取的原始数据保存或缓存到某个地方,每次需要清洗和转换时,直接从该存储位置提取数据进行处理。

我在网上查阅了一些关于数据仓库和数据湖的资料,但不太理解这些概念。请问在这个场景下,应该如何高效地存储和管理这些数据?

正文完
 0