V2EX [单个 6.20TB 的超大 csv 文件保持顺序的情况下进行去除重]各个方案的可行性分析 原帖在 这里. 具体的需求如下: 行数是 203 亿,平均行长 335 去重是基于整行文本 前缀重复度不高,没…