数联网:大数据如何互联
上QQ阅读APP看书,第一时间看更新

|1.2 从大数据到数联网|

互联网的发展催生了海量的大数据,而这些大数据只有连接起来,才能够发挥更大的作用和价值。

大数据强调了数据的“量”,这种从TB到PB级海量数据的处理能力(主要是单点处理能力),是大数据面临的首要问题。而数联网强调的是单个大数据节点间的互联,强调的是群体的处理能力,这两者相辅相成,共同“培养”了未来数据的处理、分析能力。

1.2.1 历史溯源

1.2.1.1 单点大数据的历史

计算机数据处理的发展历程,是从单点数据处理发展到联网数据处理的过程。

1.纸带

最早的计算机是将数据存储在打孔纸带上,通过带孔为1,无孔为0,对数据进行记录和处理,这是计算机的最初数据存储形式。借助这些纸带,通过光电信号转换,借助二进制形式,计算机对各种数据进行存储、处理,如图1-3所示。

图1-3 计算机的打孔纸带

2.文件

纸带作为数据存储形式之后,又出现了磁带和磁盘作为数据存储介质。数据是通过文件进行存储的。文件是由一些字符的串行组成的,其中二进制文件一般是指除了文本文件以外的文件。

在文件系统阶段,数据以文件为单位被存储在外部存储器上,由操作系统统一管理。操作系统为用户使用文件提供了友好界面。文件的逻辑结构与物理结构脱钩,程序和数据分离,使数据与程序有了一定的独立性。用户的程序与数据可分别被存放在外部存储器上,各个应用程序可以共享一组数据,这就实现了以文件为单位的数据共享。

文件是计算机数据存储的一种早期形式,记录最简单的数据结构和少量的数据内容。

3.数据库

1970年,IBM的研究员E.F.Codd博士在刊物《Communication of the ACM》上发表了一篇名为“A Relational Model of Data for Large Shared Data Banks”的论文,提出了关系模型的概念,这奠定了关系模型的理论基础,这篇论文被普遍认为是数据库系统历史上具有划时代意义的里程碑。

1974年,IBM的Ray Boyce和Don Chamberlin将Codd关系数据库的12条准则的数学定义以简单的关键字语法表现出来,里程碑式地提出了结构化查询语言(Structured Query Language,SQL)。SQL的功能包括查询、操纵、定义和控制,是一个综合的、通用的关系数据库语言,同时又是一种高度非过程化的语言,只要求用户指出做什么而不需要指出怎么做。

1979年,Oracle公司引入了第一个商用SQL关系数据库管理系统;1983年,IBM推出了DB2数据库产品。

在文件系统阶段,人们在信息处理中关注的中心问题是系统功能的设计,因此程序设计占主导地位,而在数据库方式下,数据开始占据了中心位置,数据的结构设计成为信息系统的核心,而应用程序则以既定的数据结构为基础进行设计。

4.数据仓库

1991年,W.H.Bill Inmon发表了《构建数据仓库》,并给出了数据仓库的定义:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。

数据仓库是在数据库已经大量存在的情况下,为了解决数据资源的进一步挖掘和决策需要而产生的,它并不是所谓的“大型数据库”。数据仓库中的数据是在对原有分散的数据库数据进行抽取、清理的基础上经过系统加工、汇总和整理得到的。数据仓库的数据主要供企业决策分析之用。某个数据一旦进入数据仓库,一般情况下将被长期保留。

企业数据仓库的建设以现有企业业务系统和大量业务数据的积累为基础。数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们做出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而数据仓库的根本任务是把信息加以整理归纳和重组,及时供相应的管理决策人员所用。因此,从产业界的角度看,数据仓库的建设是一个工程,也是一个过程。

5.大数据中心

“大数据”是指由多方搜集而来以多元形式存在的庞大数据组,往往具有实时性。在企业销售的环境中,这些数据可能来自社交网络、电子商务网站、顾客来访记录,除此之外,还有许多其他来源。

大数据的特点有以下4点。第一,数据体量巨大。大数据从TB级别,已经跃升到PB级别。第二,数据类型繁多。大数据包括网络日志、视频、图片、地理位置信息等。第三,价值密度低。以视频为例,在连续不间断的监控过程中,可能有用的数据仅仅出现一两秒。第四,处理速度快。1秒定律,这一点也是大数据和传统的数据挖掘技术的本质区别。

大数据中心相较数据仓库最大的变化是,要存储大量的非结构化数据,处理的技术依赖云计算等新的计算模式。

由数据处理技术发展的历程可以知道,单点数据处理能力在逐步加强。在企业的内部,数据处理历程也是沿着上述的历程发展的。

1.2.1.2 互联的历史

我们从另一个角度回顾一下计算机联网的历程。从早期的远程终端连接阶段开始,计算机联网经历了计算机网络(局域网和广域网),到现在的计算机互联网时代。

计算机进行互联的过程,改写了社会发展的历史,对人们生活、工作等各个方面产生了深远的影响。

1.计算机联网的发展

计算机网络是指将地理位置不同的具有独立功能的多台计算机及其外部设备,通过通信线路连接起来,在网络操作系统、网络管理软件及网络通信协议的管理和协调下,实现资源共享和信息传递的计算机系统。

(1)从局域网到广域网

局域网(Local Area Network,LAN)就是作用于局部地区范围内的网络,它所覆盖的地区范围较小。局域网对计算机的数量配置没有太多的限制,少的可以只有两台,多的可达几百台。一般来说,在企业局域网中,工作站的数量在几十到两百台。在网络上,其所涉及的地理距离从几米至几十千米。局域网一般位于一座建筑物或一个单位内,不存在寻径问题,不包括网络层的应用。

这种局域网的特点是连接范围窄、用户数少、配置容易、连接速率高。10Gbit/s以太网拥有目前最快的局域网速率。IEEE 802标准委员会定义了多种主要的局域网:以太网(Ethernet)、令牌环网(Token Ring)、光纤分布式接口网络(FDDI)、异步传输模式网(ATM)以及最新的无线局域网(WLAN)。

广域网(Wide Area Network,WAN)也称为远程网,所覆盖的范围比城域网(Metropolitan Area Network,MAN)更广,它一般是由不同城市之间的局域网或者城域网进行互联形成的,覆盖的地理范围可达几百千米到几千千米。因为距离较远,信息衰减比较严重,所以这种网络一般要租用专线,通过IMP(Interface Message Processor,接口报文处理器)和线路连接,构成网状结构,解决循径问题。这种广域网因为所连接的用户多,而总出口带宽有限,所以用户的终端连接速率一般较低,通常为9.6 kbit/s~45Mbit/s。

这些网络形式都是早期计算机进行互联的形式。

(2)TCP/IP下的互联网

互联网始于1969年美国的阿帕网,它是指网络与网络之间所串联成的庞大网络,这些网络以一组通用的协议相连,形成逻辑上的巨大单一的国际网络。

互联网使用一种专门的计算机语言(协议),以保证数据安全、可靠地到达指定的目的地。这种语言分为TCP(Transmission Control Protocol,传输控制协议)和IP(Internet Protocol,网间协议)两部分。

互联网将世界上的计算机进行了广泛连接,用户可以在互联网上寻找到各种资料。

2.数据库连接

互联网解决了计算机的物理连接问题,但是数据库如何进行连接,依旧是个难题,原因如下:首先,各种企业采用了不同的数据库产品,有关的数据模型也千差万别,其对数据的理解相距甚远;其次,很多企业将自己的数据库视为私有财产,不愿意分享有关的数据内容;最后,现有的技术和理念还无法完全解决数据库连接等问题,虽然前期一些企业进行了一定程度的技术层面的尝试,但远远还不够。

(1)通过接口连接

连接两个数据库最简单的办法就是通过接口对其进行连接。

开放数据库连接(Open Database Connectivity,ODBC)是微软公司开放服务结构(WOSA,Windows Open Services Architecture)中有关数据库的一个组成部分,它建立了一组规范,并提供了一组对数据库访问的标准——应用程序编程接口(Application Programming Interface,API)。这些API利用SQL来完成大部分任务。开放数据库连接(Open Database Connectivity,ODBC)本身也提供了对SQL的支持,用户可以直接将SQL语句发送给ODBC。ODBC是微软提出的数据库访问接口标准。ODBC定义了访问数据库API的一个规范,这些API独立于不同厂商的数据库管理系统(Database Management System,DBMS),也独立于具体的编程语言。

微软的ODBC文档是用C语言描述的,许多实际的ODBC驱动程序也是用C语言写的。

一个基于ODBC的应用程序对数据库的操作不依赖任何DBMS,不直接与DBMS打交道,所有的数据库操作由对应的DBMS的ODBC驱动程序完成。也就是说,用户不论是访问FoxPro、Access还是Oracle数据库,均可用ODBC API。由此可见,ODBC的最大优点是能以统一的方式处理所有的数据库。

Java数据库连接(Java Data Base Connectivity,JDBC)是一种用于执行SQL语句的Java API,可以为多种关系数据库提供统一访问,它由一组用Java语言编写的类和接口组成。JDBC提供了一种基准,数据库开发人员据此可以构建更高级的工具和接口,进而编写数据库应用程序。

JDBC对Java程序员而言是API,对实现与数据库连接的服务提供商而言是接口模型。JDBC为程序开发提供标准的接口,并为数据库厂商及第三方中间件厂商实现与数据库的连接提供了标准方法。

ODBC不适合直接在Java中使用,因为它使用C语言接口。从Java调用本地C代码在安全性、实现、坚固性和程序的自动移植性方面都有许多缺点。JDBC可以被想象成被转换为面向对象接口的ODBC,而面向对象的接口对Java程序员来说更易于接受。

(2)建立“联邦”机制

数据联邦的出现是为了解决企业内部异构数据库的访问问题。IBM提出了较多相关的概念。

DB2数据联邦引入了虚拟数据库的概念,这个虚拟数据库是通过连接多个异构数据源而创建的。DB2数据联邦的用户可以随意查询存储在联邦系统中任意位置的数据,而不必担心数据的位置、实际数据源系统的SQL种类或者存储的能力。

通过数据联邦,用户可以透明地访问企业内部各种异构数据库,获取数据结果。

3.企事业服务总线(ESB)

企业的内部要进行数据的连接,也会采用服务总线技术。

企业服务总线(Enterprise Service Bus,ESB)是传统中间件技术与XML、Web服务等技术结合的产物。ESB可以提供比传统中间件产品更为廉价的解决方案,同时它还可以消除不同应用之间的技术差异,让不同的应用服务器协调运作,从而实现不同服务之间的通信和整合。从功能上看,ESB提供了事件驱动和文档导向的处理模式,以及分布式的运行管理机制,它支持基于内容的路由和过滤,具备了复杂数据的传输能力,并可以提供一系列的标准接口。

ESB的功能有隐藏复杂性,简化访问,允许开发人员使用通用的、规范的查询,访问异构系统的数据细节。

基于ESB的理念,企业数据总线(Enterprise Data Bus,EDB)概念出现了。它是指集成各个原始数据库并对外提供一种有规则的、可控的数据连接的存储服务。

ESB和EDB都是站在企业内部角度,力图解决异构环境的数据联通问题,建立一个通用的访问总线,避免每个不同系统间“一对一”的网状连接模式。

为了屏蔽不同数据库的差异,某电信企业采用了数据封装的模式,将底层的数据加上一个封装层,屏蔽不同的数据库产品和不同的数据模型差异等。同时,该模式通过统一的逻辑SQL语句调用不同数据库中的数据,满足上层应用需要,如图1-4所示。

图1-4 某电信企业的数据封装架构

其中,数据封装的功能架构包含了数据服务组件和数据服务管理两部分。

数据服务组件的封装从支撑业务需求的角度出发,通过消息交换模式、数据组织方式、数据服务描述和数据服务实现等技术手段完成。数据服务组件是具体的服务实体,实现具体的数据处理逻辑和数据操作功能。

数据服务管理主要负责对接收到的请求方的消息进行控制和管理,各类应用作为数据服务请求方,发送请求消息给数据服务管理模块。当数据服务管理模块接收到具体的请求后,会对请求的消息进行安全控制、查找及路由等工作,再将请求的消息参数发送给数据服务组件。数据服务组件负责接收数据服务管理模块的消息,将请求的消息参数与数据仓库中的数据进行交互,并将应答的消息返回给数据服务管理模块,最后,数据服务管理模块负责将应答的消息返回给数据服务请求方。

4.企事业间的数据互联

大多数企业在内部数据连接方面已经积累了几十年的经验,但对于如何进行企业间的数据互联了解甚少。

(1)如何从“一对一”到“统一”

企业间的数据互联采用的基本都是“一对一”的模式,即两个企业针对要交换的数据内容,逐一设定有关的数据交换接口,然后根据一定的管理要求,定时或者实时地传送数据。

这种连接基本是“一对一”的,不同系统间会有网状的连接关系,这种连接的管理十分复杂,在质量保障方面也较困难。

(2)数据互联的“TCP/IP”

互联网借助底层的TCP/IP解决了有关连接的问题,同时,借助该协议,互联网可以完成对计算机的寻址,其上的HTTP还可帮助完成对网页的获取。企业间数据互联的过程,是否也能参考互联网的连接模式,建立类似底层的“TCP/IP”,然后自动寻址和传输,解决数据的自动连接问题呢?

大型互联网企业尝试的方法是提供统一的API调用。例如,淘宝提供了几百个对外开放的数据访问API函数,外部应用可以通过API函数调用,访问相关数据。但是这种模式是以淘宝为访问目的的,并不是以数据交互的角度进行的。例如,淘宝的数据如果要和百度的数据进行大范围的交互,这种API调用的模式就无法满足需求了。

因此,我们需要一种普遍的技术架构和模式,让所有的数据企业平等地进行连接,平等地进行交互。

1.2.2 万数互联

互联网已经让世界上的计算机从物理上连接起来;同时,通过浏览器,用户初步实现了信息连接和交互。那么每台计算机上都有大量的数据,很多是以Hadoop文件等形式存放的,如何将这些数据连接起来呢?

1.2.2.1 从万物互联到万数互联

在物联网的发展过程中,人们提出了“万物互联”的概念,即将所有的物品通过“物联网”进行连接。物联网是叠加在互联网之上的,复用底层的TCP/IP,在上层完成有关的通信行为。

那么,我们是否可以借助“物联网”的思路,通过“数联网”解决“万数互联”的问题呢?答案是肯定的。

数联网是站在数据互联的角度,区别于物联网中“物”的互联,数联网的这种连接层级也要高一些。数据连接要解决数据的标准、数据寻址、数据语义表述等方面的问题,建立在数联网上的业务应用也将十分丰富,比如数据级的共享服务。例如,淘宝如果将自己的用户数据和京东的用户数据进行融合,将会对用户有更深刻的理解和分析,了解用户更全面的需求特征。

物联网增加可互联的范围,而数联网通过对数据的分析,可提升对互联网内容的深度解析和理解,图1-5为物联网架构。

图1-5 物联网架构

1.2.2.2 大数据是否为单节点概念

大数据的概念更多强调数据的数量、数据的类型和数据的处理能力,从概念和目前的实践过程来看,它更多是关注一个企业内部的数据,因此更像是单节点的数据概念。但笔者以为,大数据更应该扩展其外延,应该关注企业间的数据互联,应该站在“数联网”的角度去解决大数据的处理及发展问题。

有了数联网的铺垫,大数据才会有“质”的提升,其研究范围才会更加广阔,商业模式才会更加丰富,技术扩展才会更加广泛,从而助力新一轮产业升级。

1.2.2.3 从真实的世界到数据的世界

我们眼前看到的是真实的世界,房子、景点、人物等都是真实存在的。但站在数据的角度,房子会包含价格、位置、户型等属性,景点会包含内容、特点、游客量等属性,人物则将包含姓名、性别、年龄、收入、爱好等属性,这些属性均可以通过数据被量化描述。

例如,游客可以看到北京的“鸟巢”国家体育场,可对其形状、大小、功能等产生感官的认知。但在数据世界里,“鸟巢”的数据属性被描述为:外形结构主要由巨大的门式钢架组成,共有24根桁架柱;建筑顶面呈鞍形,长轴为332.3m,短轴为296.4m,最高点高度为68.5m,最低点高度为42.8m;大跨度屋盖支撑在24根桁架柱之上,柱距为37.96m;“鸟巢”体育场于2003年12月24日开工建设,2008年3月完工,总造价22.67亿元,工程总占地面积21×104m2,场内观众坐席约为91000个。

通过这些数据,我们可以对“鸟巢”有更加量化、更加深刻的认知,且这种认知超过了主观的认知。通过这些丰富的大数据的积累,我们可以构筑一个数据的世界,反映真实世界的量化存在状态。因此,在大量数据的映射下,现实世界会映射为一个数据的世界。

1.2.2.4 享受大数据连接的乐趣——数据互联

如果现实的世界可以通过大数据被映射为一个数据的世界,那么这些数据通过互联将为我们提供一个更加全面、更加量化的描述空间。

例如,我们要了解华为手机在电商的用户评价情况,在传统模式下,我们需要在淘宝、京东、1号店分别收集数据,然后进行格式及语义转换(如淘宝上按照星级满意度打分,而京东按照五分制打分,两者格式间要转换并统一),才能获取完整的用户满意度情况。

我们如果使用数联网,即可将淘宝、京东、1号店的用户满意度情况统一表述,如都用星级满意度打分,这样就可以直接调用相关数据,并直接进行汇总计算,生成华为手机在几家电商网站的用户满意度情况。

1.2.3 如何让应用丰富起来

任何技术的发展,都要依靠应用的驱动,那么数联网会提供哪些业务应用呢?

1.2.3.1 从互联网应用引申

将互联网的典型应用引申到数联网中。互联网是借助TCP/IP,将计算机进行连接,然后通过HTTP,借助网页浏览器(如IE浏览器)对计算机中的数据进行存取访问,实现比较容易的信息访问。

那么在数联网中,我们首先要解决数据的连接问题,然后借助基于数据的类似HTTP和网页浏览器的数据浏览器,实现自由的数据访问和获取。

数联网在实现数据的自由访问之后面临的首要问题就是,如何对各种数据进行检索,构建基于超数据(Hyper Data)的数据搜索引擎。

1.从文件检索到数据检索

互联网的搜索引擎类应用是建立在文件检索的基础上的。谷歌和百度都是通过爬虫模式,爬取互联网上各种文件的存放位置,并建立关键字索引,然后将其提供给用户供其检索和查找。

在数联网中,我们可以在数据库开放的基础上,给出各种数据的检索依据,直接根据有关的数据库元数据进行描述,找到需要的数据库,然后根据类SQL,直接从数据库中检索所需的数据结果。

例如,在传统的百度引擎中,用户输入“黄山毛峰”关键字,将检索出所有出现黄山毛峰的文章;而在数联网中,用户如果输入“黄山毛峰”,将检索出所有包含黄山毛峰内容的数据库,用户可以通过类SQL,逐个从数据库中查询黄山毛峰的相关数据,如某个数据库中黄山毛峰的销售量、黄山毛峰的产出量、黄山毛峰的销售价格等具体的数据内容。

2.用户的跨域视图

有了数联网后,我们就可以获取用户的跨域数据。这些数据将涵盖各个领域,如张博士的购车需求数据、购买电商商品的数据、他在沃尔玛超市购买商品的数据及其旅游的线路数据等。

如此,我们可以依据张博士的各种喜好,建立全方位跨域的视图。该视图会包括其喜欢的车型、购买哪些品牌的商品、旅游喜欢冒险还是观光等,这些数据会有助于我们对张博士形成一个全面的认知。

当然,这些数据的获取要建立在合规合法的前提下,如果张博士不愿意公开相关数据,则要保护这些隐私数据。用户统一视图举例如图1-6所示。

图1-6 用户统一视图举例

3.产品的跨域视图

有了数联网之后,我们也可以获得产品的跨域视图。例如,针对某款型号的宝马车,我们可以了解:哪些用户购买了该款车,哪些用户关注了这款车却没有买;用户对这款车使用的油耗真实数据;这款车在各种车祸事件中的表现数据;用户对这款车认可的卖点标签等。如此,我们可以对宝马的这款汽车,形成360°全方位的量化认知,且这种认知是足够客观、足够有说服力的。

这些数据会促进产品的良性发展,避免欺诈行为的出现,督促每个生产厂商认真把控产品质量和品牌信誉,促使其为用户提供更加优质的产品和良好的服务。

1.2.3.2 大数据单点应用的互联升级

大数据的应用在数联网的基础上,也将呈现截然不同的应用景观。

例如,针对用户阮小二的征信情况,工商银行只拥有他在自己银行的消费数据,只能基于他在工商银行的消费、贷款情况进行计算,算出其征信打分情况;而淘宝只有阮小二在淘宝网站上的消费数据,只能基于这些数据进行征信计算;京东白条业务也只能基于阮小二在京东消费的数据进行征信计算。

如果阮小二只是在淘宝上购物,在工商银行中没有存、贷过款,在京东上也没有购物,那么只有淘宝的用户征信计算是相对靠谱的,而工商银行和京东网站将对阮小二的信誉情况一无所知。

有了数联网后,工商银行和京东网站可以在法规允许的条件下直接联网获取阮小二在淘宝上的相关信息数据和行为数据(如其在建设银行的贷款还款征信等),丰富自己的征信计算模型,计算出更加可靠的征信打分数据。

1.2.4 让大数据流动起来,带来效益

每个企业内部的大数据都会在自身内部发挥价值,但这些数据的作用也仅限于内部应用而已。如果让这些大数据通过数联网流动起来,其将会从不同的角度,发挥更大的价值。

1.2.4.1“赠人玫瑰手有余香”——分享的乐趣

大数据“蜗居”在一个企业的内部,只能带来针对这个企业的有限价值;这些数据如果被分享出去,就可以发挥更大的价值。

例如,医院病人的病例数据,在去除法规不允许公开的敏感内容之后,如果实现互联,那么医药企业就可以直接跟踪和分析使用自己药品的病人的用药效果情况;其他医院的医生也可以丰富病例,甚至可以直接查阅部分疾病的处理案例;病人也可以找寻其他医院的病例情况,为自己寻找最佳的治疗医生,与医生共同探讨最好的治疗方案。这种医院数据的公开与流动,将对“治病救人”,产生深远的影响。这种分享的精神,是互联网精神的本质,也将是数联网的本质!

1.2.4.2 提升数据管理水平

如果数据能够流通起来,那么将极大地提高数据管理的水平。每个企业的数据都是内部的,数据质量的管理是依赖少数人的技术、业务经验形成的。而如果数据被公开并流动起来,那么不同企业间的数据质量将相互验证,更多人将参与到数据质量管理工作中,这会极大地提升数据管理水平。

这种多维度、多角度数据的相互验证,将极大地提升数据的准确程度,让数据质量更加让人信服。

1.2.5 共享经济下的数据共享

互联网的发展,带来了共享经济的理念。共享经济,一般是指以获得一定报酬为主要目的,基于陌生人且存在物品使用权暂时转移的一种新的经济模式。其本质是整合线下的闲散物品、劳动力、教育医疗等资源。

例如,如果宋小江的自行车一直闲置不用,而张二飞想使用自行车,那么张二飞就可以通过互联网寻找到宋小江的自行车,然后支付一定的费用,获得宋小江自行车的使用权。如此,宋小江的自行车避免了闲置,宋小江也获得了一定的收入;而张二飞不用花太多钱买自行车,只需花较少钱临时租用即可。

这种共享模式,减少了资源的浪费(张二飞不用再买一辆自行车了),共享双方也能各取所需。

1.2.5.1 如果房间都可以被共享,数据为何不可

Airbnb是共享经济的典型代表之一。Airbnb是AirBed and Breakfast的缩写,中文名为空中食宿。空中食宿是一家联系旅游人士和家有空房出租的房主的服务型网站,它可以为用户提供多样的住宿信息。

Airbnb成立于2008年8月,总部设在美国加州旧金山市。Airbnb是一个旅行房屋租赁社区,用户可通过网络或手机应用程序在其上发布、搜索度假房屋租赁信息并完成在线预定。Airbnb用户遍布190个国家近34000个城市,用户在其上发布的房屋租赁信息达到5万条。Airbnb被《时代周刊》称为“住房中的eBay”。

基于Airbnb网站,游客在旅游时,就可以以较低的价格住在当地人家里,既可以和房主人交流,也可以自己做饭等,而不用在酒店里居住。

那么,如果人们都可以将自己的房间或者沙发拿出来,与陌生人分享,为什么不能将自己的一些非隐私数据拿出来与别人分享呢?比如用户自己感兴趣的电影题材、喜欢的餐饮内容、为之着迷的风景等数据,这些数据,会为不同的人或者企业提供珍贵的研究素材。例如,某个餐厅可以通过这些数据获取用户感兴趣的饮食内容,并改进服务,提升市场竞争力。

1.2.5.2 让流通带来效益

共享经济的前提是,让分享者能够获取收益,包括现金收益和精神收益等。那么,数联网中的数据共享,如何给分享者带来收益呢?

一位名叫Federico Zannier的美国人成功地将其3个月积攒的大约7GB的本人隐私数据卖掉,并已经成功将这些数据炒到了上千美元。

这名美国人每天都上网浏览网页,看视频,看广告,为Google、Facebook等互联网巨头每年几百亿美元的广告收入贡献了自己的“一己之力”,但是他认为自己没有得到一丝的回报,反倒让广告公司赢利,于是他决定做点什么。从2013年2月开始,Zannier开始记录自己的网页浏览数据、地理位置信息、鼠标轨迹、屏幕定时截图、摄像头定时照片、键盘输入记录、App登录信息等数据,在短短3个月的时间内,他就积攒了超过7 GB的隐私数据。

Zannier将不涉及他人,法律不禁止的本人隐私数据放到了Kickstarter众募平台上公开叫卖,目前已经有100多人对他的行为表示支持,他已经卖出了价值1100多美元的数据。

如果Zannier能够公开卖出自己3个月的数据,那么其他人呢?是否可以合法、合规地卖出更多的数据,换取更多的商业价值呢?