忘掉大数据 思维才最重要
而我们真正记录下来数据,记录得越全面,对还原真实世界就还原得越好。但是很多情况下,如果真正的技术、好的算法或者数据清晰的整合能力很强的话,可以把一个低分辨率的信息,还原成原来很高分别率,很真实的情况。就像我们的人眼其实就很厉害,因为其实我是有一点近视眼的,但是我看很远处的一个广告牌,上面的文字有的时候我看得不是很清楚,但是我的大脑是能够猜出来到底这个文字是讲什么的,本质上是因为在我的大脑里面是拥有识别低分辨率的数据,同时再把它还原推测到高分辨率的那个能力。这种能力其实也是大数据公司里面非常核心的能力。
“并不是所有的数据在系统里面都存在,比如说我跟我同事之间的关系,我跟我爱人之间的家庭关系,可能在公安系统里面并没有完整的存储数据。但是很多数据可以非常快速的被发现出来。”
3、数据关联:同一趟火车到互为同事的推断
前面我给大家介绍的是数据的清洗整合。实际上大数据技术除了信息整合之外,另外一个很核心的技术是数据的关联。
前面我也提到了很多大数据客户不管是政府还是企业都有很多不同的数据,因为数据本身是需要关联起来,在数据真正联系到一起之后,在数据内部我们可以发现很多数据和数据之间的关系,而这些关系真正的挖掘好了之后,它的实战价值是非常大的,可以起到1+1远远大于2的作用。
在美国有一家非常有名的大数据企业叫“Palantir”,这家公司现在虽然还没上市,但市值已达两百亿美金,是全球没有上市的企业里市值排名前五的企业。这家企业之所以厉害是因为其在利用数据关联这种能力去给美国情报机构,包括CIA、美国国土安全局提供数据挖掘服务,帮助他们进行反恐和非常重大的刑事案件追查,数据的关联在很多情况下能够帮助政府很好的发现犯罪份子。
明略数据现在也在利用类似的技术给中国的公安局等部门提供类似的服务。在整个公安破案过程中,这种关系的挖掘是非常重要的。就像前面我说的,并不是所有数据在系统里面都存在,比如说我跟我同事之间的关系,我跟我爱人之间的家庭关系,可能在公安系统里面并没有完整的存储数据。但是很多数据可以非常快速的被发现出来。举个例子,当时我们在河北做了一个试点,我也是很强烈地被震撼到了。当时把我的名字输到这套系统之后,其实是通过我们自己做开发的系统,我们可以用非常快速的方法查出哪一些人是我在明略的同事。
虽然在公安系统里并没有记录我是明略的,我的同事也是明略的,我们之间这种同事关系,但在公安系统里记录了我曾经从北京坐了一趟动车去到了河北,我的另外一个同事也坐这趟车过去,同天晚上我们又入住了同一家酒店,就这样简简单单的信息,就把我们两个人关联上了。我们其他同事用类似的方法都可以非常简单地被关联在一起。当我们利用这样方法把几组数据,比如乘坐火车的数据和住酒店的数据关联到一起之后,很多关联关系就自动的被发现出来了。这个价值对于整个安全体系来讲是非常非常重要的。今天其实很多公安都在试用类似的方法侦破重大案件。
相关新闻:
0条评论
网友评论