泄露出来的23T样本数据部分有误

73次阅读

共计 4711 个字符,预计需要花费 12 分钟才能阅读完成。

看置顶的几个回复,分析的很有道理

这里仍然保留原文个人见解供参阅、指正
——

个人怀疑数据是部分 AI 生成的,但是绝对有真实数据打底,因为在里面搜了下,我这边的村子、小区、街道全都有出现,这不是 AI 瞎写能写出来的
这里只讨论 person_info 这个样本文件
此外
搜索 1900 可以得到
AGE”:121,”BIRTHDAY”:”1900″,”BPLACE”:” 河北省 ** 市 ** 市 ”,”IDNO”:”13098219000930**3*”,”IDTYPE”:”01″,”QUERY_STRING”:”  河北省 ** 市 ** 市   121(年龄) 00 1900(出生日期) “,”RNAME”:” 张润萌 ”,”SEX”:” 男 ”},”

在其中 搜索 马嘉祺 可以得到:
AGE”:121,”BIRTHDAY”:”1900″,”BPLACE”:” 河北省 ** 市 ** 市 ”,”IDNO”:”13098219000425**16″,”IDTYPE”:”01″,”QUERY_STRING”:”  河北省 ** 市 ** 市   121(年龄) 00 1900(出生日期) “,”RNAME”:” 马嘉祺 ”,”SEX”:” 男 ”},”_type”:”a”,”sort”:[6754350]}

上述两人所在的县市,1986 年才设立。
18 位身份证号码是从 2009 年 10 月 1 日开始实施的。
换句话说,在录入这两位信息的时候,至少已经 109 岁高龄了
政务上云,是 2015 年左右开始的
http://www.gov.cn/xinwen/2015-12/14/content_5023340.htm
除非上海 GA 把历年卷宗全部数字化录入了,否则个人认为这种情况还是很低的

(您可以搜索到多个 AGE”:121″ 或是 120,1900 年或是 1901 出生的人,但却不能搜索到任何一个 1899 年出生的人,见图)
如果这些百岁老人的数据是上海 GA 把历年卷宗数字化录入产生的,为什么 1900 年的这么多,而 1899 年的一个没有呢?



当然,这并不能 实锤 作假,我也不可能去村委会查询某个人是否存在 … …

个人见解:部分信息是真实的,不全的信息由 AI 生成补全,这些 1900,1901 等百余岁的出生的人,信息只有精确到县(市)的地址,如


无其他信息。而其他的则精确到小区甚至楼牌号
——
有人说会不会是录入不严谨导致的呢?有可能,如果系统里年龄出生日期都是按照身份证号码推算的,那么录入时不慎选成了最早的 1900 年,那么是有可能的。
但我校验了一些百岁老人的身份证(只根据校验码校验,未对接公安数据库),都是校验通过的
如果录入不谨慎,在不慎输错年龄的同时还能符合校验码的概率又有多少呢?

注:AGE”:***” 是相对于 2021 年的年龄,并非录入时的年龄,可以认为该数据导出日期最早为 2021 年

关于数据保存期限的问题,我看了另一个文件,是报警记录,是 2002 年 -2019 左右的,上海 GA 的确数字化了不少陈年信息

网友回复:

注册 总结一下楼主的意思:如何解释样本中含有大量 1900 年出生的人的数据?不合理之处:1. 上海公安部 15 年才开始录入数据,而数据被导出时间在 2021 年(见 age 键),这些大量的 1900 年出生的人的数据肯定不可能在 15-21 年之间被录入(因为他们肯定已去世了)。唯一的解释是系统有录入之前传统系统 / 纸质卷宗的数据,但数据量太大了,不太现实 2. 另外一种解释是,这些 1900 年出生的人根本不是 1900 年出生;因为各种问题,他们没有申报年龄 / 系统中没有他们的年龄,所以使用 1900 年作为默认出生年份。但问题在于,这些人又有合法的 1900 年出生的身份证号,这些身份证号是哪来的?

御坂 有可能录入错误的是 15 位的,18 位是批量自动转出来的。我说的这只是无数可能性之一,中国这么大,人这么多,可以造成这个问题的方式多了去了。

fall 你看他们的名字,这看着都像是 Z 世代的,你说他们是 60 后 70 后我都不信。假定他们是 2000 年的,系统有问题把 2000 年转成了 1900 年,然后据此生成了身份证号,后来他们又重新生成了正确的,错的就这样留在了系统里,这个可能性存在吧?总之你直接说造假,这个太武断了。

wwbfred 750k 数据里搜了下老家的县名,找到了小学强迫我帮他做作业那个人,我日!

wwbfred 以前有个假的模拟健康码软件,下了一个玩玩然后就去派出所坐了几个小时

suaxi 有没有可能录入不严谨,或者说系统内部分资料被刻意修改过。毕竟数据量庞大。

Omicron 我们这一个县早归隔壁市了,大概八九十年代时候就划走了

cdseoo 你找存在真人真事的信息去核对一下你这么单纯的搜索我觉得可信性

我是坏虫 进来看看怎么假的

kyc 挺逗的 隐藏的修仙者

心上人 你太不了解中国了。首先你根本不知道这些信息是在什么情况下怎样录入的,有可能都是多年前电子化的时候手动录入的东西,各种错误一大堆。这些数据有些根本不会修改,有人说没自己的数据直接新插入一个,错的那个根本没人管。我这只是举了一个很简单的例子,实际操作起来,可以出错的环节太多了,有些错误可能还是为了绕过某些限制故意错填的。

rin 大佬拿到数据了?

wwbfred 真假混着就很离谱了

zxxx 挺真实的,1900 年是存在过的真实年份,所以说就是真的泄露

infplus 我刚开始也觉得是假的,后面我下载了 75w 的看了一下,感觉又是真的了!!越看越真

Timi- 也许真有啊。

ddq 真假对半分个人感觉

注册 我们这一个县早归隔壁市了,大概八九十年代时候就划走了

注册 按照以往的习惯,不会叫这个名字吧?张润萌、马嘉祺都是最近比较流行的名字

我是坏虫 下载不会被查水表?

infplus 可能录入的时候就不严谨

长留仙 以前有个假的模拟健康码软件,下了一个玩玩然后就去派出所坐了几个小时

5678 750k 数据里搜了下老家的县名,找到了小学强迫我帮他做作业那个人,我日!

Omicron 你说的没错,但是隶属于中华人民共和国中央人民政府的上海公安,的数字化系统中,存有两位 121 岁老人的报警数据,个人认为真实性存疑

suaxi 所以这些就不要下载。看看热闹就行。

御坂 搜了下我那边的 没一个认识

长留仙 你说的也有可能

注册 有没有可能录入不严谨,或者说系统内部分资料被刻意修改过。毕竟数据量庞大。

注册 有没有想过 这个是多少年之前的数据

cdseoo 报警记录有无规定存留几年

weiai 但是他并不是放出所有数据, 如果真实数据打底, 部分 ai 生成, 那他为什么不只放真实数据, 少放一点数据也不打紧不是吗? 一些可能有误的数据我更倾向于工作人员录入失误, 毕竟各种魔幻新闻刷到的也不少吧, 相比而言刚出生就给你安排个 1900 出生也不算什么了

nosec 根据里面的 AGE“121”可以推断,导出日期应为 2021 年,公安数据数字化等问题已在主贴更新,请查阅

eka 录入不严谨也是有可能的,例如著名的 1970 年 1 月 1 日(时间戳 0),但你看更新的主贴,如果录入不严谨,为什么 1900 年的有这么多且信息不全,而 1899 年的一人也没有呢?而又为什么年龄更小的人 * 七八十岁)信息就很详细呢?这是录入不严谨所不能解释的

御坂 但这些 1900 年的身份证(抽测)校验通过,录入错误同时校验通过,个人认为概率还是低的

御坂 其实我发现有一部分信息是被 duplicate 过的,即相同名字,出生年份 1900 年左右,的人的数据被循环打出

御坂 总结一下楼主的意思:如何解释样本中含有大量 1900 年出生的人的数据?不合理之处:1. 上海公安部 15 年才开始录入数据,而数据被导出时间在 2021 年(见 age 键),这些大量的 1900 年出生的人的数据肯定不可能在 15-21 年之间被录入(因为他们肯定已去世了)。唯一的解释是系统有录入之前传统系统 / 纸质卷宗的数据,但数据量太大了,不太现实 2. 另外一种解释是,这些 1900 年出生的人根本不是 1900 年出生;因为各种问题,他们没有申报年龄 / 系统中没有他们的年龄,所以使用 1900 年作为默认出生年份。但问题在于,这些人又有合法的 1900 年出生的身份证号,这些身份证号是哪来的?

fall 个人认为可以归咎给 AI 样本过少导致,或者就是单纯导出没去重

注册 您说的太对了,正是我想说的意思

注册 真假混就没意思了,但是感觉还是真的

御坂 根据名字也可以推断出。有部分是真的,另一部分 AI 补齐。

yizhi 感觉可能是部分缺少的数据被 AI 补齐了,但我也不敢拿着数据找人去问。

infplus 合理推断

御坂 最早看到了 2002 年的数据,没有再早的了,我只是拿了样本

中央银行 报警记录 20 年和档案一样,合理  看起来真实度高

御坂 其实拿号码核验一下应该就知道真实性了..

nosec 其实最简单办法就是,采集一下出生年份,跟官方公布的各年份出生人口做比对,如果大致符合的话就 OK,有明显出入的话就实锤假的了

Fleer 可能有真有假

注册 这种 121 岁的证件能去游戏里实名认证吗

注册 随机找几个报案的,发条短信问问。最刑最有用的核实方法

lsin 卷宗数字化很早前就在做了。难道他们就不知道倒入数据库吗?

lsin 1900.01.01  是部分系统日历的第一天,所以不可能有早于这一天的人。如果没有录入出生年月这个数值是 0 也就是 1900.01.01.000 至于生日和身份证号的关系,也有可能是录入人不知道,瞎填的。为什么瞎填两个数值是一样的呢? 很有可能是在录入系统做了限制,必需一致,所有录入人员就这样编的一个号码。

theoneman 可怕

injy 拿去过游戏实名,不能过就是假的

法外狂徒张三 像上面说的 拿来试一下游戏实名之类的 能过就肯定是真的

adrce 有些游戏是有对接公安部数据的,有些单纯算校验码,校验码对了即可通过验证 现在不知道什么情况

NEET 姬 你太不了解中国了。首先你根本不知道这些信息是在什么情况下怎样录入的,有可能都是多年前电子化的时候手动录入的东西,各种错误一大堆。这些数据有些根本不会修改,有人说没自己的数据直接新插入一个,错的那个根本没人管。我这只是举了一个很简单的例子,实际操作起来,可以出错的环节太多了,有些错误可能还是为了绕过某些限制故意错填的。

御坂 但这无法解释那些离奇的年龄对应的身份证号校验位校验通过这个事情,你说的当然是一种非常合理的情形,是完全有可能的,但录入错误同时还能让校验位通过..

注册 有可能录入错误的是 15 位的,18 位是批量自动转出来的。我说的这只是无数可能性之一,中国这么大,人这么多,可以造成这个问题的方式多了去了。

注册 你说的这个有可能,这也解释了为什么这些人在 18 位身份证推行的时候已经百岁高龄,却有“合法”18 位身份证了。而他们信息早年录入较少,电子化后数据自然也较少,因为人已经过世了。在这种情况下而出现问题,也就不足为奇了

wwbfred 你看他们的名字,这看着都像是 Z 世代的,你说他们是 60 后 70 后我都不信。假定他们是 2000 年的,系统有问题把 2000 年转成了 1900 年,然后据此生成了身份证号,后来他们又重新生成了正确的,错的就这样留在了系统里,这个可能性存在吧?总之你直接说造假,这个太武断了。

御坂 您说的我是赞同的,不清楚该信息是如何而来的,户籍数据库吗?可能是这样,因为里面有“居住证、身份证照片等字段”那么老数据没人去翻动,出现错误没人去管,写入一个新的正确的显然比找出错误的并改正方便

wwbfred 有可能就是从村长办公室抽屉里翻出来的,然后录入到了市的系统里,最后传到了省的数据库和国家数据库。中间的那几级十有八 九没人管是否正确,这要一个一个查不得把人累死。就算有人管,有几个不知道怎么出现的漏网之鱼,也很正常。

正文完