如何高效存储和管理爬虫抓取的数据，以便后续清洗和转换？

11次阅读

共计 208 个字符，预计需要花费 1 分钟才能阅读完成。

在进行数据采集、清洗和转换的过程中， 经常会出现重复处理同一批数据的情况 。例如，在需求初期不需要年份信息，但后续又需要添加年份信息。如果每次都重新采集数据，会非常麻烦且低效。

为了解决这个问题，我设想应该将爬虫抓取的原始数据保存或缓存到某个地方，每次需要清洗和转换时，直接从该存储位置提取数据进行处理。

我在网上查阅了一些关于数据仓库和数据湖的资料，但不太理解这些概念。请问在这个场景下，应该如何高效地存储和管理这些数据？

正文完

存储数据清洗

发表至： V2EX

2024-08-06

0

我终于不再懒惰，开了自己的博客，欢迎访问！

[求助] clash for windows 开启 tun 模式后无法执行 apt update

[开源自荐] 我亲手写的 “单机分布式一体化” 数据库

肝了六百多天的短博客类型客户端 Fread 终于上线啦！限时免费，目前支持 Mastodon 和 RSS。

美股只跌了 3%而已，昨天我就说不用悲观，顶多 5%

儿童英语学习方法推荐

热门文章