第四章 巧妇难为无米之炊
——电子商务相关信息技术介绍
第一节 搜索引擎
目前国内使用的搜索引擎主要有百度(www.baidu.com)、搜狗(www.sogou.com)、360搜索(www.haosou.com)、雅虎(www.yahoo.com)、搜搜(www.soso.com)、迅雷搜索(so.xunlei.com)等。
搜索引擎简单地说就是一种信息检索系统,其作用就如同我们常接触的各种数据库检索工具一样。所不同的是,常规数据库检索工具都是为一个建造好了的数据库服务的,用户可以使用数据库检索工具从数据库中把自己需要的信息找出来;搜索引擎面对着的则是“全互联网”的数据。“全互联网”数据相对于常规数据库数据的主要区别是:首先,这些数据是非结构化数据,数据类型多种多样,数据大小不一;其次,这些数据分布在世界各地的多个服务器中,这些数据不属于某一个人或者某一个组织。如果把常规的数据库搜索比喻为在一个书架里找一本书,那么互联网搜索就好像在地球上找一个公文包,这个包里面可能装着书,也可能装着照片,并且这个包混杂在千千万万个包中间。一个用户如果想找到这样一个包,在没有工具的帮助下,真可谓是大海捞针。互联网时代是信息爆炸、数据爆炸的时代,如何在天量的数据中找到用户需要的数据呢?这就是搜索引擎存在的价值。搜索引擎为了能够让用户找到需要的数据,相对于数据库搜索,需要做两件额外的事。第一件事是找到互联网上各种各样的数据;第二件事是为这些非结构化的数据建立一个索引数据库,这样,互联网搜索就变成了常规的数据库搜索,就可以利用已有的、成熟的数据库检索技术来检索天量的互联网数据了。从互联网上获取各种数据是通过一种叫作“网络爬虫”(Web Spider)的自动化工具来实现的。网络爬虫是一种自动化程序,它可以通过网址和网页上的链接自动遍历能够达到的网页,并记录网页上的数据。可以把网络爬虫想象成一个人,他知道每一个网页,然后他就访问每一个网页,读这些网页的内容,并把这些网页中的内容按照一定的规则记录到数据库中。当用户用搜索引擎搜索一个关键词时,搜索引擎就检索自己的数据库,把检索到的关键词所关联的内容和所对应的网页链接反馈给用户,这就是搜索引擎的工作过程。
大家知道搜索引擎的工作过程,可能会问一个问题,网络爬虫如何能够遍历所有的网页?答案可能会让你有点儿沮丧,目前即使是容量最大的搜索引擎也只抓取了整个互联网网页资源的40%左右。为什么不是100%呢?其中一个原因是抓取技术的限制,目前的抓取技术无法遍历所有网站的所有网页,很多网页是没有建立与其他网页的链接的,这些网页就成了“孤岛”,网络爬虫是找不到它们的。
另外一个原因是存储容量和数据处理速度的瓶颈。2011年的时候,有人推测说互联网上一共有1万亿个网页,到现在为止,互联网上有多少个网页已经无法统计清楚了。如果按照每个网页的平均大小30K字节计数,1万亿网页的容量是30000000G字节,30000T字节。这是一个天文数字。按照现在的宽带速度,每秒钟下载1M比特计算,3万T字节的数据需要下载7610年,或者7610台计算机下载1年才能够下载完毕。因为数据量太大了,所以网络爬虫只抓取“重要”的网页。
网络爬虫的工作过程是从某一个网站的某一个页面(通常选取首页)开始,首先读取这个网页的内容,存入数据库。然后找到这个网页上的所有对其他页面的链接,按照这些链接寻找其他的网页。按照链接找到的网页可能是本网站的次级网页,也有可能是其他网站的网页。这样循环进行,直到把这个网站的所有网页都遍历完为止。
当“网络爬虫”出现后,现在大家口中的互联网搜索引擎才成为现实。第一个开发出爬虫程序的是马修·格瑞(Matthew Gray),他在1993年开发出了一个软件程序World Wide Web Wanderer,最初这个程序是用来统计互联网上服务器的数量的,慢慢地发展到能够根据网页来捕捉网址。World Wide Web Wanderer是互联网搜索引擎的鼻祖。1994年,Lycos网站将爬虫程序与索引程序连接,现在意义上的搜索引擎诞生了。此后的搜索引擎虽然技术进步了,但还是跳不出网络爬虫+索引的技术框架。大名鼎鼎的Yahoo是1994年4月由在斯坦福大学读书的美籍华人杨致远和他的同学共同创办的,他们将自己感兴趣的网页收集起来制成目录与用户分享,随着收录链接数的增长,雅虎开始提供基于目录的搜索。雅虎的目录中的网页数据都是手工输入的,所以那时的雅虎不是真正意义上的搜索引擎,而只是一个目录数据库搜索工具。到1995年年底,Alta Vista上线了,Alta Vista成功整合了之前的所有互联网搜索技术。Alta Vista是第一个在搜索引擎中引入字根处理、关键词检索、布尔逻辑运算等高级信息检索技术的搜索引擎。Alta Vista收录的网页范围超过了此前的所有搜索引擎,且数据库检索速度快,几秒钟就可以反馈回用户需要的搜索结果。Alta Vista的成功使之迅速成为20世纪90年代中期网络搜索的代名词。可以说,到Alta Vista出现时,互联网搜索技术已经十分成熟了。那么Google是如何在这些互联网巨擘的脚下诞生并成为新一代互联网霸主的呢?Google的成功不是技术的成功,而是对用户需求把握的成功。在佩奇和布林创建Google之前,IT界认为关键词在某一个网页中出现的频率越多,这个网页与这个关键词的关联度越高,在向用户呈现搜索结果时,这个网页的链接就应该出现在靠前的位置。大家可以想象这种排序策略的弊端,就是如果某一个网站想让自己的网页排在前面,那么它就可以在网页内插入很多重复的关键词,这样它就会被搜索引擎排在前面。但是这样的网页对用户来说可能毫无意义。佩奇和布林在他们的博士论文中提出了“网页级别”(PageRank)技术,通过“网页级别”(PR)来决定搜索结果排列的顺序。网页级别PR技术的核心算法是保密的,但是其基本原理并不复杂。PR技术给每个网页一个“分值”,这个分值的大小由该页面被其他网页链接的数量和其他网页的重要程度决定。说起来比较拗口,打个比方,好比一个人张三被很多人推荐,推荐张三的人越多,说明张三越重要,而推荐张三的人级别越高,说明张三越重要。如果张三和李四都有10个人推荐,但是推荐张三的人中有8个五星级人物,2个四星级人物,而推荐李四的有5个五星级人物、3个四星级人物、2个三星级人物,那么张三的分值就要高于李四的分值。就像报考博士,院士推荐的考生比普通教授推荐的人可能更受重视。Google以这种全自动的PR技术排除了人为因素对搜索结果的影响,从而保证了网页排序的客观性和公正性。凭借PR技术,Google在1998年上线,并迅速成为新的搜索引擎巨头。
同时期,国内出现了一些国产搜索引擎,这些国产搜索引擎在技术上并没有进一步的创新,始终在Google后面追赶。功夫不负有心人,他们终于等到了机会,2010年3月,Google退出了中国内地市场,这棵大树的拔除,使原先生活在Google阴影下的以为只能等死的小树们终于见到了阳光,迅速填补了Google留下的空缺。Google撤离中国内地市场是一个彻头彻尾的战略性失败。Google从此失去了巨大的中国内地市场,而其赌气离开没有对中国内地产生任何影响。
百度的搜索结果排名策略简单且粗暴,谁对关键词出的钱多就把谁排在前面。这一策略遭到了很多人的诟病,一些心存不良的网站也利用这一策略堂而皇之地登上了搜索结果的首页,例如在一段时间之内搜索某国内电信运营商的名字结果出现在前面的都是李鬼网站,很多消费者因此受骗。
总结起来,现在的搜索引擎通常具有以下几个特征。
第一,使用网络爬虫程序自动访问、收集各个网页的信息。
第二,对收集回来的网页信息进行分析,提取出网页中的有用信息,然后把这些信息加入网页索引数据库。
第三,当用户输入关键词实施搜索操作后,搜索引擎从网页索引数据库中检索与关键词匹配的相关网页,然后按照一定的规则把各个网页的内容摘要和地址链接反馈给用户。
每家搜索引擎公司的网络爬虫都有特定的名字,它们在爬过网页时,会首先向网站表明自己的身份。不论是人工打开一个网页还是利用网络爬虫打开一个网页,浏览器或者网络爬虫都会向目标网页发送一个请求,这个请求中有一个User-agent字段,用于表明请求者的身份。这个字段对应的就是网络爬虫的名字。例如Google的网络爬虫的名字是GoogleBot, Baidu的网络爬虫的名字是BaiDuSpider, Yahoo的网络爬虫的名字是Inktomi Slurp。通常一个网站可以设置访问日志记录来访者的情况,根据网站日志记录,网站的管理员就可以知道有哪些搜索引擎的爬虫来过自己的网站、什么时间来的,以及读取了哪些网页数据等。
如果一个网站不希望自己的信息和数据被网络爬虫得到,那么它就可以设置一道篱笆来阻止网络爬虫对数据的读取,使网站的数据得到保护。什么样的网站不希望自己的数据被网络爬虫扒走呢?一些购物网站就是这样的。例如,淘宝的数据基本上对各个外部搜索引擎是屏蔽的。网络爬虫进入一个网站时,通常会首先访问一个网站根目录下的文本文件robots.txt,网站可以通过这个文件告诉网络爬虫该网站是不是允许它访问,哪些网页是可以访问的,哪些网页对特定的网络爬虫是不能访问的。这个robots.txt文件就像一个有权限的通行证,对到访的网络爬虫说明它的通行权限。有些网络爬虫的设计者为了特殊的目的不遵守网站的通行限制,即不理会robots.txt协议,这样,这个网站就不能阻止网络爬虫对某些特定页面的抓取。如果发生了这种情况,网站可以通过其他方式来限制网络爬虫的访问。
更多的时候,一个网站的所有者是希望自己的网页被搜索引擎所收录的,并且尽可能地排在用户搜索结果展示页面的前面。网页是用编程语言写成的,现在常用的网页描述语言是HTML语言。网络爬虫在爬取网页时,会去读取HTML代码。在HTML编写的网页中,会有一个专门的Meta字段用来告诉网络爬虫这个网页的主要内容、是否需要抓取,还可以告诉网络爬虫本网页中的链接是否需要被继续访问。
如果一个网站希望自己的网页被网络爬虫抓取,那么它就要成为一个网络爬虫友好网站。网络爬虫一般抓取的是文本信息,对于多媒体、图片等文件,一般要通过链接的锚文本和文件注释来向网络爬虫说明这些非文字信息的内容。例如,一段链接文字的文本内容为“新型垂直起降定翼巡航飞行器”,这段链接文字指向了一张JPG格式的新型飞行器图片,当网络爬虫读取到这段链接文字时,它就知道这张图片的内容是“新型”“垂直起降”“定翼巡航”“飞行器”,当搜索四个关键词中的任何一个时,搜索引擎都能够找到这张图片。因此给多媒体、图片、音频等非文本信息添加相应的文本说明,可以帮助网络爬虫更好地理解网页和抓取网页。动态网页是网络爬虫面对的一个大问题。要理解动态网页,先要知道静态网页。静态网页是由HTML代码生成的、页面内容和显示效果不会发生变化,如果想要静态网页的内容发生变化,唯一的途径就是修改网页的代码。动态网页,是相对于静态网页而言的,动态网页的程序代码没有变化,但是动态网页所呈现的内容则会根据查询数据库的结果、显示环境、时间等的不同而发生变化。动态网页和动感网页不能混为一谈,动感网页是网页上有动画、滚动字幕等“动感内容”,这些内容可以是静态网页的元素,也可以是动态网页的元素。而动态网页也可以是纯文本的网页。所以动态网页和动感网页虽然一字之差,但是内涵是大不一样的。动态网页实际上不是存储与网站服务器中的一个独立、完整的页面文件,而是当用户发出访问请求时才临时生成的一个完整页面。动态网页的链接地址中有一个标志性的字符——“? ”,动态网页的地址是以.aspx、.asp、.jsp、.php、.perl、.cgi等作为后缀的。网络爬虫一般不可能从一个网站的数据库中访问到全部网页的内容,通常网络爬虫不会去抓取网页地址中“? ”后面的内容。这样,这些动态网页对网络爬虫而言就成了“不友好”型的网页。有意思的是,搜索引擎呈现搜索结果的页面就是动态页面。
搜索引擎是互联网的重大技术之一,改变了人们获取信息的方式,促进了互联网应用的飞速发展。可以说,如果没有搜索引擎技术的推动,互联网不可能像今天这样普及,不可能像今天这样深刻地改变了人们的生活。
那么,搜索引擎和电子商务有什么关系呢?答案是搜索引擎是一个非常重要的互联网推广渠道。如果有人问Google、百度这样的搜索引擎公司本质上是什么公司,答案是这些搜索引擎公司都是广告公司。
当用户有购买某种产品或者服务的需要时,他们往往会上网查找资料,而到哪里查找资料呢?大部分人选择的是通过搜索引擎输入产品或者服务名称的关键词来搜索相关信息。这样,如果一个提供该产品或者服务的企业在用户搜索时,把包含自己产品或服务的网页呈现在搜索结果页的比较靠前的位置,那么这个网页被点击浏览的可能性就大大增加。如果用户点击了这个网页的链接,就相当于顾客进到“店里”一样,商家达成这笔交易的可能性就很大。进一步的,在搜索引擎上搜索的用户都是需求非常明确的用户,所以在搜索引擎上投放广告就非常的精准。因此,各个商家都非常重视搜索引擎这一广告阵地。为了把自己产品或服务的网页呈现在搜索结果比较靠前的位置,可以有两种做法。一种是免费的做法,叫搜索引擎优化,简称SEO(Search Engine Optimization);另一种是给搜索引擎公司付费,让搜索引擎公司把自己的网页索引排在结果页的前面,这种方式就是搜索引擎营销,简称SEM(Search Engine Marketing)。还有一种分类方法认为所有基于搜索引擎的营销都是SEM,这个意义上的SEM包括了SEO。在本章中,我们把SEO和SEM分开,简单来说SEO是不给搜索引擎公司交钱的,SEM是给搜索引擎公司交钱的。
SEO的目的是使网站的网页能够更容易地被搜索引擎检索到,并按照搜索引擎给网页的“打分规则”尽可能地打高分,在搜索结果展示页中尽量排在前面。一句话概括就是在不给搜索引擎公司付费的情况下,如何使网页出现在首页。为了达到上述目的,首先需要了解搜索引擎的打分规则。问题的难点是各个搜索引擎的打分规则往往是搜索引擎公司的最高机密,他们从不向外界公开。这也是可以理解的,如果他们公开了,那么想做SEO的网页就会按照这些规则有针对性地设计网页,这对互联网各方都是没有好处的。既然搜索引擎公司不公开自己的打分规则,那么大家就只能去猜这个规则。一般是从一些排在首页的网页中总结规律并在自己的网页上去实验。目前大家总结出的几个规律包括:被外部链接越多的网站分值越高、网站和网页对网络爬虫越友好分值越高(便于网络爬虫抓取信息)。
外部链接:外部链接对提高一个网站的自然排名起重要作用。一个网站被其他网站或网页链接的越多,网站的“得分”就会越高。如果链接到该网站的外部网站的重要性越高,那么这个网站的“得分”也越高。所以,一个网站如果被多个重要网站链接了,那么这个网站的排名就会靠前。增加外部链接的方法有很多,概括起来包括以下方法。
第一,在网站上发表高水平的内容,当这些高水平的内容被其他网站转载时,链接到本网站的外链自然就多。
第二,互换链接。与其他网站互相链接,即A、B两个网站,A网站链接到B网站,B网站也链接到A网站,这样每一个网站都增加了一个外部链接。
第三,分类目录。将网站提交到专业目录网站或其他免费目录中,如有HAO123、百度网址大全、谷歌网址大全、Yahoo目录。一个网站的网址如果能够被人气旺盛的目录网站收录,不但可以为网站带来大量的网络爬虫,还可以带来可观的人工访问流量,这对提高网站的排名是非常有益处的。
第四,书签。将网站的精品内容添加到社会化书签中,例如Google书签、QQ书签、百度搜藏。百度搜藏不但可以收藏网址,还可以收藏全文,建立某个网页的快照,用户可以在搜藏内容中快速查找自己所需的资料,更重要的是,网络爬虫也可以在搜藏中快速查找内容,可以快速提高网站的排名。百度搜藏有点儿类似于雅虎早期人工建立的目录,所不同的是百度是依靠大量用户自发地建立的目录。
第五,在其他网站发帖加入自己网站的网址。包括可以在博客上发表文章,然后在文章中加入链接地址,在各种论坛上发表文章并在文章或签名档中插入网址。
第六,外部资源利用。对于像百度这样的搜索引擎,它们提供了多种增值服务产品,例如百度空间。企业网站可以利用这些外部资源提高网站的外链。企业可以开通“百度空间”,空间的域名最好使用公司产品的品牌、名称或者关键字,同时在空间中对公司网站中的内容进行转载并链接上公司的网址。这样百度的网络爬虫就可以非常迅速地“爬”到企业网站(百度对自己产品中的信息总是优先抓取,优先排序)。还可以利用百度空间账户去访问其他百度空间尤其是影响力大、活跃度高的空间中的其他用户,如果对方回访了,会提高网络爬虫到达的效果。
第七,购买链接。就是向一些“重要”网站付钱,在该网站中加入本网站的链接。这种方法非常直接,但是存在着一定的风险,就是这种行为一旦被搜索引擎发现会给网站“减分”。
站内优化:优化网站内部的各个网页的链接拓扑结构、网页内容,使网站更容易被网络爬虫抓取。可以在以下几个方面做出优化。
第一,优化网站结构。网站有清晰的结构,网页间有清晰的逻辑关系将有利于网络爬虫对网站的抓取。
第二,优化站内链接。例如,可以把图像、图片、Flash链接改成文本链接,使网络爬虫更容易识别这些链接并“了解”链接的内容。
第三,关键词的选择。网页中哪些关键词是被搜索的热词?可以通过搜索引擎公司提供的关键词分析工具对关键词进行热度分析,在网页中尽量使用在当期搜索量大、与自己网站匹配的关键词。还可以去研究搜索时排名靠前的网站中出现的词语,尤其是排名靠前的竞争对手的网站,他山之石,可以攻玉。要定期对网站的流量进行统计分析,分析网页的访问者是通过什么关键词到访的,这样优化关键词就会有的放矢。
第四,关键词的位置和密度。网页的地址(URL)中最好出现关键词(英文的),网页的关键词标签中出现关键词1~3个,网页的描述标签中出现关键词1~3个。这些位置的关键词都是给网络爬虫看的,浏览者在网页上是看不到这些内容的。页面文章的标题中出现关键词,文章内容中出现关键词,尤其是第一段和最后一段出现关键词。页面的链接锚文本中要包含关键词,图片的文件名要包含关键词,ALT属性中出现关键词。
在国内搜索引擎行业中,常用的SEM方式是搜索竞价排名。竞价排名就是企业为了使自己的网站在搜索结果展示页中排名靠前,需要向搜索引擎公司支付费用,支付费用越高,排名结果越靠前。这样,即使一个企业的网站在互联网上影响很弱,它也可以通过付费的方式使自己排名在某个关键词搜索结果的前面。例如,几个公司都是做企业家培训的,这几家公司希望自己的企业在用户搜索“企业家培训”“高端培训”“EMBA”“EDP”等几个关键词时自己的网页排在搜索结果页的首页靠前的位置。那么这几家公司就需要对上述几个关键词进行竞价。一家公司给“高端培训”这个关键词出8元,而另一家给“高端培训”这个词出10元。在用户检索“高端培训”时,出10元钱的企业的网页就被排在靠前的位置,而出8元钱的企业就会排在后面。现在问题来了,对于一些热门关键词,例如前面提到的“高端培训”,现在出现在首页的价格已经达到了80~100元。用户每点击一次企业的网页索引,企业就要付给搜索引擎公司80~100元。考虑到转化率(即点击的人成为最终付费客户)并不是100%,企业为一个成交付出的“广告费用”可能高达上千元。很多企业都抱怨,几十万的竞价排名费用投进去了,带来的收入还没有广告费多。另一个问题是,相关关键词往往几十个上百个,到底投哪几个关键词才是最有效的呢?例如,以汽车为例,汽车的特征有很多,“天窗”“大空间”“真皮座椅”“ESP”“无钥匙进入”……到底搜索哪一个关键词的用户才能够成为我的成交客户呢?有些关键词虽然价格高,但是转化率并不高,而有些关键词竞价的价格低,但是转化效果好。如何从大量的关键词中找到转化率最好、性价比最高的关键词是一个让企业营销人员头痛的问题。
另一种SEM方式是购买关键词广告。通常在搜索结果展示页的左侧或者右侧边栏都会出现一些与用户搜索的关键词相关联的产品或者服务的广告,如果一个企业想要自己的广告出现在搜索结果页上,就需要购买这些广告位。通常出价越高,就会出现在越靠前首页、上端的位置。
第二节 大数据
一、什么是大数据
我们先来看一则小笑话:数据是有价值的。
一则小笑话
某男,在一次聚会时说自己买了很多条iPhone数据线,在家里每个房间都插一条,这样走到哪儿都能随时充电,再也不怕iPhone没电了……在场的大多数人都当成是调侃iPhone的段子笑笑就过去了。只有某女,非常细心,悄悄问他买了多少条,他说42条。
现在某女和某男在北京三环内总共有42个房间的数套豪宅内过着幸福的生活……
在开始探讨大数据(Big Data)之前,我们先来讨论一下,什么是数据?数据是关于事物的定量或者定性的记录。数据与信息、知识、智慧的关系如图5所示。
图5 数据、信息、知识和智慧的关系
人类社会的活动和自然界每天都在产生天量的数据,但是大部分数据都被丢弃了或者说没有被记录。例如,一个人一天的每一分钟的位置信息,这样一个数据集几乎是没有记录的(使用苹果手机的人例外——见扩展阅读)。为什么不记录呢?一是传统观点认为这些数据里的每条记录没有价值或者价值含量太低;二是记录这些数据需要占用大量的资源,分析这些数据也需要强大的计算能力。现在,随着电子商务的兴起和信息技术的进步,这一切都发生了变化。
首先,以前认为没有价值的数据其实蕴含了大量有用的信息。还是以人的位置为例,如果研究一个人一天的活动轨迹,就可以得到这个人的消费能力和偏好信息:这个人是开车出行还是公共交通出行(揭示了个人消费能力),上街喜欢逛哪家商店(揭示了消费层次),喜欢在哪个橱窗前停留(揭示了个人喜好)。如果一个商家能够得到上述数据并从中挖掘出数据中包含的信息,那么商家就能够准确地做出决定要不要向站在自己店里的这位顾客赠送一张白金会员卡以长期留住这位顾客。研究很多人的活动轨迹就更有意思了。如果你是一个高档消费品生产厂商,现在想在路边的LED大屏幕上投放广告,你一定想知道每天经过这个大屏幕前的人流数量是多少(广告覆盖的受众量),哪个时段人最多(什么时间效果最好),如果能够知道经过这个大屏幕前面的人的消费层次就更有的放矢了。一个厂商如果知道了上述数据,那么厂商投放广告的效果一定会大大提高。所以,所有数据都是有价值的,只是有些数据的价值含量比较低,需要大量这些“低价值”的数据才能够提取出“高价值”的信息。这非常像沙里淘金。
其次,现在云计算技术的成熟给处理这些海量数据提供了可能。云计算为处理海量数据提供了硬件的计算能力、存储能力和软件的数据分析能力。有了云计算,以前因为处理成本太高而不值得处理的数据现在处理成本降低了,处理这些低价值数据能够带来正的收益。有了云计算,以前因为处理速度慢而不能及时处理的数据现在可以在需要的时间内完成处理使数据的价值得以发挥。
对数据的及时处理非常重要,有些数据是有时效性的,过了有效时点,即使从海量数据中挖掘出信息也没有用了。最典型的例子是天气预报,大家想象一下,如果天气预报系统对各种观测数据不能够及时处理,当一天已经过去了才计算得到这一天的天气结果,这样的数据对大家的意义就像小品中的笑料一样了。
上述的对海量的低价值数据进行处理以得到其中蕴含的有用信息就是大数据处理技术,其中的海量数据就是大数据。大数据,或者称为海量数据,是指数据规模大到无法通过过去的常规方法和设备及时地采集、传递、存储、处理并从中提取出有用信息的巨量资料。
大数据的概念出现的时间比较早,1980年阿尔文·托夫勒在《第三次浪潮》这本书中就提到了大数据的概念,并预言大数据将是“第三次浪潮中的华彩乐章”。(第三次浪潮:托夫勒把距今8000年至1万年的农业革命和18世纪中叶开始的工业革命称为是两次重大的历史“浪潮”,他把电脑的发明作为一个标志,认为人类已经进入了“第三次浪潮”,即信息革命时代)。但是直到2009年,大数据才在互联网技术领域流行起来。根据美国互联网数据中心公布的信息,目前互联网上的数据在以每年50%的速度增长,每两年数据量便会翻一番。目前人类社会所记录的数据的90%是最近几年产生并被记录的。人类活动产生的数据量大爆发是与人们日益普及的互联网应用行为相伴生的。
大数据的研究可以分成两大范畴。一个研究范畴是技术范畴,包括数据采集、数据清洗、建模技术、数据处理工具开发等。这个范畴的研究主要是数据分析相关技术人员从数据处理技术角度研究如何提高大数据的处理能力、如何更好地从数据中挖掘有用信息,是专业性非常强的一个研究领域。另一个研究范畴是应用范畴,即利用各种大数据分析工具对数据进行分析以得到有用的商业信息或其他方面的信息。在电子商务领域,典型的大数据应用包括市场预测、消费者画像、消费者行为分析、消费地图绘制、舆情监测、广告精准投放等。大数据对于企业的价值在于能够帮助企业更加准确地得到市场、客户、企业经营的各种信息,使企业决策更加科学、正确。
大多数企业管理人员对大数据的应用主要集中在商业应用范畴,即利用大数据分析所提供的各种信息指导企业经营的方方面面。从这一层面来看,大数据应用相对来说比较简单,管理人员只需要掌握一到两种大数据分析工具就可以满足工作的要求。
案例分享 大数据真的很神奇
在苏格兰,警察抓到了一个盗车贼,这个人是一个珠宝大盗,可是这次怎么偷上车了呢?警察请来大数据分析技术人员,通过大数据提供的证据成功地破获了系列珠宝盗窃案,也解开了珠宝大盗偷车的原因。
事情的经过是这样的。这个珠宝大盗在被抓的当天去了一家珠宝店,成功地偷了一条钻石项链,可是当他准备开车逃跑时,发现来时开的汽车不见了。原来他在作案前把汽车停在了路边,路过的警察把他的汽车牌照输入了车辆管理系统,发现这辆汽车有几十条没有处理的罚单,于是警察就叫来拖车,把这辆汽车拖走了。珠宝大盗没有找到自己的汽车,以为自己的车被偷了,就决定也偷一辆车逃走。他巡视四周,发现了一辆红色的跑车,于是他决定就偷这辆车。打开车门、破解车子的防盗系统对这样一个大盗来说简直易如反掌,就在他得手正要开车离开时,四周响起了警笛,警察来了。珠宝大盗眼看已经无法逃脱了,就把刚刚偷来的钻石项链扔掉了。警察抓到了他,作为一个偷车贼。那么为什么警察在他偷车得手后马上就赶到了呢,是车上有自动报警装置吗?答案很有意思,原来这辆车是一个“诱饵”,是警察专门用来钓偷车贼的。警察根据对丢失车辆的数据分析,发现红色跑车是最容易被偷的车,于是警察就找来了一辆红色跑车放在容易发生盗车案的地方等待偷车贼自投罗网。只不过没有想到这次抓到了一个不是偷车贼的偷车贼。珠宝大盗被带到警察局,询问他为什么偷车,他说是临时起意,没有别的原因。警察问他刚刚发生的珠宝盗窃案是不是他做的,他坚决说不知道。警察们虽然没有证据,但是还是怀疑他,因为自从这个珠宝大盗出狱后城里已经接连发生了多起珠宝盗窃案,一直也没有抓到作案的人。而这次,他又碰巧在刚刚失窃的珠宝店附近被抓到,这也有点儿太巧合了。于是警察使出了高科技手段,他们请来了大数据分析人员,在电信公司的配合下,对过去三年内这个珠宝大盗的手机出现的位置进行了定位。结果非常有意思,每次发生珠宝盗窃案时,这个珠宝大盗的手机的位置总会同时处在被盗珠宝店的附近。警察把数据分析的结果展示给珠宝大盗,珠宝大盗被大数据分析的结果惊呆了,他没有想到每天不离身的手机居然泄露了自己每一次作案行动。在证据面前,珠宝大盗彻底服输了,他交代了过去三年的一系列珠宝盗窃案件。一个珠宝大盗就这样栽倒在大数据面前。
二、大数据的特点
目前大家公认的大数据具有4V特性:Volume(数据量大)、Value(数据价值密度低)、Variety(数据类型多样)、Velocity(数据需高速处理)。
1.数据量大
我们先看一下描述数据量大小的单位。大家熟知的计算机数据单位是GB,1GB=1024MB,也就是2的30次方。一首mp3歌曲的大小约为3MB~5MB,一部普通清晰度rmvb格式的网络电影的大小约为700MB~1GB,一部高清电影的大小大概是30GB。比GB大的单位是TB,1TB=1024GB,即2的40次方。目前市场上主流的磁盘存储设备已经进入到TB时代了,现在标准配备1TB的电脑已经很常见了。TB之后是PB、EB、ZB和YB,它们之间的关系如下。
1GB(Gigabyte)=1024MB,即2的30次方字节
1TB(Terabyte)=1024GB,即2的40次方字节
1PB(Petabyte)=1024TB,即2的50次方字节
1EB(Exabyte)=1024PB,即2的60次方字节
1ZB(Zettabyte)=1024EB,即2的70次方字节
1YB(Yottabyte)=1024ZB,即2的80次方字节
在2011年,全球记录的数据总量是1.8ZB,到2020年,整个世界记录的数据量将达到35ZB。这是什么概念呢?一张普通CD光盘的存储容量是500MB,这个容量可以记录5000本书的文字内容。一般人的阅读速度平均为每分钟300~500字,一个人以最快速度要逐字读完这5000本书,每天24小时连续不停地读也需要1年的时间。中国国家图书馆藏书约2000万册,居世界第5位,一个人要想读完这些书即使连续不停地读也需要4000年。美国国会图书馆拥有的藏书超过1.38亿册,此外,到2013年,该图书馆存储的各种电子数据量会达到650TB,想看完这些资料对一个人来说是不可能完成的任务。而在现在的大数据时代,百度每天处理的数据量就将近100PB,也就是百度每周处理的数据量就相当于一个美国国会图书馆的数据量。
2.数据价值密度低
从前面的个人位置信息的例子可以看出,假如每30秒记录一次一个人的位置数据,每天可以记录2880条位置数据,但是这2880条位置数据里的每一条数据所包含的有用信息却非常有限,几乎可以认为是没有用的。只有把全部数据结合起来,通过数据分析的手段才能够从这些数据中提取出有用信息。例如通过对这个人一天活动的分析能够大致得到他的工作地点和家庭住址。但是一天的数据得出的结论并不可靠,因为这一天他可能去客户那里工作或者住在外面。为了判断得更准确,需要更长时间的分析才能够得到准确的结论,例如一周、一个月或者一年的位置数据的分析才能够比较准确地确定一个人的工作单位的位置和居住的地点。可以看到,几万条位置数据中才提取出居住地点、工作地点两条信息,可见数据价值密度是很低的。还有通过用户浏览网页的行为来推断用户的喜好,最终得到的用户喜好信息可能只有几条,但是要得到这几条信息需要长时间(例如一个月)分析用户所浏览的网页内容、页面停留时间、鼠标轨迹、点击行为等,而这些原始数据的数据量是非常巨大的。
3.数据类型多样
互联网时代,我们产生或者接触的数据不仅是数字、文字等传统数据类型,还包括图片、音频、视频、网络日志、地理位置等多种形式的数据。对不同形式的数据处理方法是完全不同的。大数据技术就是要处理这些不同类型的海量数据,从中提取出有用的信息。数据类型的多样性增加了处理的难度,这对大数据分析技术是一个挑战。
4.数据需高速处理
很多数据是有时效性的,错过了时效性的信息就是无用信息。例如商家在网络上发布的限时促销信息,就需要在有效时间段内推送给有潜在需求的人,才可能产生一次有效的购买行为。如果错过了有效时间段再把信息推送给用户,那么这条信息将不会产生任何正面效果,甚至会引起用户的不满。因为大数据的数据量大,只有及时处理海量的数据才能够提取出有用的信息,这对大数据的处理速度提出了非常高的要求。云计算的出现给大数据处理提供了良好的物质基础,如果没有云计算技术的发展,大数据的应用可能还停留在概念阶段。而对大数据的处理也给云计算提供了用武之地,可以说大数据与云计算是相辅相成、互相促进的。
要进行大数据的处理,需要两方面的支撑。一个是基于云计算的硬件和应用软件的支撑,另一个是大数据处理过程中用到的数据分析挖掘的算法、方法。这两方面都需要由专业的技术人员来完成,属于技术领域的范畴。
三、大数据的价值
大数据的神奇之处在于通过对大数据的分析能够揭示一些人们通过传统手段,例如直接观察非常难以发现的事实和规律。大数据就像侦探的放大镜一样,让人们可以一窥表象下面的隐秘。
案例分享 证监会利用大数据抓“老鼠”
老鼠仓一直是证券市场中难以根除的现象,因为要想抓到老鼠的尾巴非常不容易。有这样一个公募基金的基金经理,为人非常的小心,他在公司边上的小区里面租赁了一套房子,买了电脑联好了网络,每天上班在股市的交易时间里,利用到室外抽烟、散步的间隙跑到自己的出租屋里进行交易。在两年的时间里,这个基金经理赚了6倍,涉及交易金额达到10亿元。因为他做得非常隐蔽,所以公司的同事都没有发现,即使是证监会的现场检查也没有发现他的秘密。但是在交易所的大数据系统面前,这个老鼠露出了原形。深交所建立了大数据分析系统,这个大数据系统专门用来扫描在深交所开户的股票交易账户,从这些账户中挖掘出那些与公募基金交易拟合度非常高的账户。这个大数据系统在扫描一些大额资金账户的过程中,发现有几个账户和这个基金经理所管理的公募基金交易的股票高度重合,这是非常不正常的现象。于是深交所报警,稽查人员根据这些账户的信息顺藤摸瓜,发现这几个账户中有一个是以这个基金经理的妻子的名字开立的,而这个账户与这个基金经理所管理的基金的股票交易记录拟合度几乎达到了100%。最终,这个老鼠被抓了出来。这个事件是大数据第一次在国内证券市场中成功地发现了老鼠仓,对整个基金从业者是一个巨大的震动,也使得大数据的神奇之处被广为传播。
对于广大企业来说,大数据的意义在于大数据所蕴含的有价值的商业信息。这些商业信息能够帮助企业改善经营,取得额外的收益。在大数据的商业应用领域有两个经典案例,一个是啤酒和尿不湿的案例,另一个是塔吉特的孕妇营销案例,这两个案例是学习大数据知识必定会谈到的。
啤酒与尿不湿的故事的完整版本是这样的。在沃尔玛的董事会中有一位董事,他始终觉得在沃尔玛的庞大的销售数据库和客户数据库中一定蕴含着很多有益的信息,这些信息可以帮助沃尔玛更好地经营。但是董事会的其他人都不认可他的观点,于是他就不厌其烦地一次次强调对数据库中的数据进行分析的重要性。最后,也许大家被他说服了,也许大家被烦得不想再听他说了,董事会同意发起一个奖金非常丰厚的比赛,看看哪个员工能够从这些数据库中挖掘到有用的信息。重赏之下必有勇夫,沃尔玛IT部门的两个员工认真做起了这件事,他们编制了数据分析程序,对多达几十亿行的收银数据进行分析。用心的工作没有白费,他们真地挖到了宝藏。他们发现,从下午下班时间开始,啤酒和尿不湿出现在同一张结账单上的比率远远超过其他时段。这一发现让他们非常的鼓舞,他们尝试去揭开这一现象背后的秘密。通过观察,他们发现在下班时段同时购买啤酒和尿不湿的是年轻的父亲们,这些年轻的父亲在经过了一天的工作后在下班的路上要给自己的小孩买尿不湿,但是他们一想到回家还要给孩子换尿不湿就会觉得非常不爽,于是他们觉得要犒劳一下自己,给自己买一些啤酒是一个最顺理成章的选择。
发现这个秘密之后,这两位IT部门的员工报告了自己的发现并建议把啤酒摆放在尿不湿货架的附近,以更加方便年轻父亲们同时购买两种产品。这个建议取得了非常好的结果,市场测试表明,啤酒销量有了很大的增长。
啤酒与尿不湿的案例在今天看来已经不算什么了,这个案例之所以成为经典是因为它发生在20年前,那时“大数据”这个概念还没有被提出,而互联网这个概念对大多数中国人还是阳春白雪。
沃尔玛对数据库中大数据的挖掘是不是只发现了啤酒与尿不湿这一个有趣的关联呢?在发现了啤酒与尿不湿的关联之后,沃尔玛管理层终于相信了数据库中隐藏着非常多的有用信息。接下来沃尔玛不断地完善其数据挖掘算法,扩大数据挖掘的范围,发现了很多其他有趣的事情。其中的一个尝试就是把顾客的购物数据与天气数据关联起来进行挖掘。在美国的很多地方有飓风,根据常识,大家都知道在飓风来临期间要在家里储存一批饮用水和食品,但是什么样的食品才是度灾期间最受欢迎的呢?沃尔玛的数据挖掘给出了一个意想不到的答案:一种草莓馅饼。数据挖掘显示,在飓风来临之前,这些草莓馅饼会被大量地购买而往往脱销。为什么消费者在飓风期间会购买这种草莓馅饼呢?草莓馅饼热量很高,独立包装,不需要冷藏,可以方便地食用。但是这是唯一的原因吗?很多食品也具有这样的特性,为什么没有像草莓馅饼一样热卖呢?最终心理学家给出了合理的解释,原来很多美国人从小就吃这种草莓馅饼,这种有甜味的方便食品和美国人的童年回忆、被父母保护的安全感无形中联系了起来,在人们的潜意识中,看到了草莓馅饼就想到了父母的保护,想到了安全。这和我们每个人看到童年常吃的食品而回忆起童年是一个道理。当飓风来临时,人们是缺乏安全感的,于是草莓馅饼这种既能提供热量又能够带来心理安慰的食品自然受到了欢迎。于是我们看到,每当飓风来临之前,沃尔玛向这些飓风经过地区的超市大量地运送草莓馅饼以满足人们的购买需要。也许购买者自己都没有意识到他们购买草莓馅饼背后的动因,大数据揭示了这样一种关联,而心理学家最终给出了解释。如果不是用大数据分析,而是使用其他常规的市场调研手段,例如问卷调查,那么这样一条规律是几乎不可能被发现的,因为被调查者自己都不会意识到自己在潜意识中的购买决策因素。
塔吉特的孕妇营销案例同样是企业大数据应用的经典案例。塔吉特案例与沃尔玛案例的最大区别在于沃尔玛在进行大数据挖掘之前是不知道能够发现什么的,各个发现是“无意”的发现,而塔吉特的案例却是预设了明确目的的,塔吉特要围绕着孕妇做文章,她需要识别出顾客中的孕妇,她的大数据应用的使命就是利用数据找出这些孕妇,因此塔吉特针对孕妇的营销是有意而为。
塔吉特百货是美国第四大零售商,在美国开设有1300多家零售商店。塔吉特的市场定位是高级折扣零售店,塔吉特的目标顾客群是家庭年收入平均为5万美元的女性(沃尔玛的顾客群平均年收入是4万美元,凯玛特的顾客群平均年收入是2万美元)。塔吉特从销售的商品到店面设计都力求打造一种高端、独特、有品质的特色。塔吉特的很多商品都是只能够在塔吉特买到的独特产品,这些产品很多是由设计师专为塔吉特特别设计的。在商品陈列和店面设计上,塔吉特避免了沃尔玛那种故意在走道设计上迷惑顾客以便他们在店内多逗留增加购买的考量,而是在店面规划、商品陈设等方面尽可能地方便顾客找到她们想要购买的东西,以减少顾客寻找商品的麻烦。这种差异化的定位使得塔吉特的顾客中有80%是女性。消费者会有一种购物惯性,或者说习惯,比如你习惯了到某个小店去买口香糖、到固定的理发店去理发、到某个大型超市去采购足够一周的日用品等。这种购物习惯一旦养成,想要改变是比较困难的。但是当人们遇到了某种大的事件时这种惯性就很容易被打破,从而形成一种新的消费习惯。这是基于行为学得到的结论。作为女性来说,怀孕是人生中的一件大事,很多原来的固定习惯都会被打破。如果塔吉特能够在女性怀孕期间把女性吸引到自己的店里,尤其是在她怀孕的早期,女性体形改变上还不明显的时候,那么塔吉特就能够先下手为强,改变这个顾客的消费习惯,这位女性很可能会成为塔吉特的终身顾客。正是基于这样一种考量,塔吉特需要识别出顾客中哪些女性怀孕了,从而展开针对性的促销,以改变这位顾客的消费习惯。这个设想是非常好的,剩下的问题就是在她们的外形改变还不明显的情况下如何识别出哪些女性顾客怀孕了。
塔吉特求助于一位统计学家。这位统计学家通过多次反复的数据分析和验证测试,得到了一些有用的结论:一些商品可以作为女性怀孕早期的指示性商品。如果一位女性顾客购买了这些商品中的某一种,那么她有可能怀孕了,也可能只是偶尔购买;如果这位女性购买了多个指示性商品,那么可以肯定她已经怀孕了。以女性常用的润肤露为例,很多女性顾客会购买润肤露;通过对已知的孕妇过往的购物清单进行分析发现,在她们怀孕的头三个月这些孕妇会大量地购买无味的润肤露,而这时她们的体形还没有发生明显的改变,从观察体形上是无法判断她们有没有怀孕的。因此,无味的润肤露就可以作为一种早期孕妇的指示性商品。通过对孕妇的购物清单的观察还发现,很多孕妇在怀孕的头20周会购买维生素和钙、锌、镁等微量元素补充剂,因此这些维生素和微量元素补充剂也是指示性商品。通过对已知的孕妇的购物数据的分析,这位统计学家筛选出了25种指示性商品。通过指示性商品,塔吉特不但能够识别出早期孕妇,还能够判断出孕妇的预产期。数据分析表明,当一个孕妇突然开始大量采购无味的洗手液或香皂以及特大包装的棉球时,说明她的预产期就要到来了。
塔吉特的数据模型在判断孕妇方面是否准确呢?一件非常有名的事情能够说明一切。有一天,一名男子怒气冲冲地走进了一家塔吉特的门店,要求面见经理。这名男子手里拿着一大把婴儿用品的优惠券,面露愠色地对这家店的经理说:这些都是我女儿通过邮件收到的,她还是一个高中生,你们寄给她婴儿衣服和婴儿床的优惠券,是不是太不适当了?门店经理翻看了这些优惠券和邮件,发现邮件的确是寄给他女儿的,邮件中有很多婴儿用品的促销券。经理赶紧向那位男士赔礼道歉,承认了他们的“疏忽”。几天以后,经理给那位男士打电话再次致歉,但是让他没有想到的是这位父亲反而给他道歉。原来这位父亲的女儿真的怀孕了,只是他当时还不知道。在去过门店之后,他同他的女儿谈了一次,才知道他的女儿怀孕了。这个事情说明了塔吉特的数据模型在判断女性是否怀孕方面是非常有效的。
知道了某位女性顾客怀孕之后,塔吉特就可以有针对性地向她们发放婴儿用品的促销广告,把这些孕妇吸引到自己的门店里,并最终培养起她们到塔吉特购物的习惯,使这些女性顾客成为塔吉特的终身顾客。
在推送促销广告和购物券时,塔吉特发现如果非常直接地向这些早期孕妇推送往往会起到反效果,这些孕妇不会使用这些优惠券。因为直白地向她们推送这些产品,她们会觉得被人监视、分析了,因此拒绝使用优惠券甚至不会再到塔吉特店里来了。为此,塔吉特在推送方式上做了一些改变,他们把孕婴用品的广告和一些孕妇不需要的商品的广告混杂在一起推送给怀孕的女性顾客。例如塔吉特会故意把纸尿裤的广告放在割草机的广告的旁边,而把酒具的优惠券和婴儿服装的优惠券放在一起。这种做法会让这些孕妇觉得这些孕婴用品的广告不是特意给她们的,而是“无意”中发给了她们。只要这些孕妇觉得没有人在监视她们,她们就会放心大胆地使用这些优惠券到塔吉特购买孕婴用品,进而成为塔吉特的终身顾客。塔吉特开展这种营销后很短的时间内,孕婴商品的销售就出现了爆发式的增长。塔吉特通过在怀孕期间改变女性消费者的购物习惯的策略无疑是成功的,从2002年到2010年,塔吉特的收入从440亿美元增长到了670亿美元,增长了超过50%。
如果你去塔吉特公司求证塔吉特利用大数据分析顾客所取得的成功经验,那么你很可能得到这样的回答:我们从没有分析过我们的顾客。为什么塔吉特方面会一直否认他们在做的事情呢?这是因为塔吉特不想让自己的顾客觉得被分析了,如果顾客知道了自己被分析、自己的隐私被塔吉特掌握了,那么她们很可能会离塔吉特而去,这是塔吉特所不愿意看到的。因此塔吉特方面一直否认自己在做这方面的事情。那么这件事是如何被外界所知并成为一个大数据分析的经典案例呢?这件事的暴露是因为那位统计学家后来离开了塔吉特,而一位记者在采访他时知道了这些事情,于是记者把这些事情报道了出去,这样公众才得以知道这样一个大数据应用的经典案例。
企业管理人员了解大数据,就是要了解如何利用大数据所包含的信息和分析结论。
大数据对于企业来说有哪些作用呢?大数据可以在以下一些方面给企业带来巨大的帮助。
● 消费者行为与特征分析,绘制消费地图
● 优化营销策略、营销工具,实现精准营销信息推送
● 竞争对手检测
● 市场调研预测,发现新市场和新趋势
● 实现个性化营销,改善用户体验
1.消费者行为与特征分析,绘制消费地图
不同国家、不同地区的消费者偏好是不同的,这一点每一个从事营销和销售的人员都知道。但是如果进一步深入地问某一个国家或地区的消费者对某一类食品的偏好是什么,恐怕大多数营销人员就只能够凭经验或者拍脑袋来回答了。就像曾经有人把中国各地的饮食口味概括为“南甜北咸,东辣西酸”,现在如果问你在沈阳开一家川味水煮鱼饭店能否聚集足够的食客,你能够只凭借前面的经验来给出建议吗?如果不能,你有什么科学的办法来给出这个问题的答案呢?——答案就是大数据。如果要回答沈阳市民对四川麻辣口味是否喜爱这个问题,首先要通过网络来收集相关的大数据。这个数据包括沈阳地区用户搜索相关麻辣食品的数量和频度、沈阳地方网站论坛中关于美食的讨论中提到麻辣口味的文章数量、沈阳地区网民的微信中晒的美食中川菜的比重等。通过对这些数据的收集,基本上就可以分析出沈阳地区上网群体的饮食偏好,可以计算出喜欢四川麻辣口味的人群的数量,为是否适合在沈阳开办川味菜馆提供决策的依据。
2.优化营销策略、营销工具,实现精准营销信息推送
互联网营销强调精准,因为精准,宣传的内容更能引起受众的兴趣;因为精准,宣传的范围可以更加聚焦,从而降低了无效广告的投放。在广告界有一句话:我们花在广告上的钱有一半都浪费了,但是我们不知道是哪一半。
有了大数据之后,大数据可以帮助企业更加精准地了解客户的需求,然后有针对性地选择营销方式、设计传播内容、筛选传播受众,使广告有的放矢,大大提高了广告的效果。
案例分享 杭州如何进行城市形象宣传
杭州市为了吸引更多的外国游客,决定在国外投放杭州市旅游广告。此次广告投放的传播目的是精准传播“杭州,前所未见的美丽(Unseen Beauty, Hangzhou)”这一主题,加深美国、英国、德国、法国民众对中国杭州的认知和印象,提升杭州在四国民众中的知名度、美誉度和影响力。
这次宣传选定的国家有美国、英国、德国和法国,摆在宣传人员面前的一个问题就是这四个国家的民众对中国文化感兴趣的点是什么?这四个国家的民众感兴趣的点是一样的还是有差别的。如果不把这些问题弄清楚,很有可能会使宣传的内容设计出现偏差,影响营销宣传的效果。
为了回答上述问题,宣传人员利用大数据对四个国家的民众关注中国的兴趣点进行了分析。宣传人员把互联网上的一些有关中国的关键词进行了挖掘和分类,总结出美食、功夫、美景、历史、人文、民俗、物产、中医等几大类,然后分别在这四个国家的网站、论坛和博客上面筛选这些关键词并分类进行统计。数据统计出来后,发现美、英、法、德四国的民众对中国元素的关注点是有差别的。美国网民中关于功夫的关键词出现比例最高,占比达到82%;而英国网民更关心美景,占比达到79%;法国网民更关心的是中国美食,占比达到78%;德国网民关心最多的也是美景,占比达到75%。
有了这些数据分析结果后,宣传人员针对这四个国家分别制定了网络宣传推广重点。在具体实施方式中,以互动游戏为例,针对不同国家制定了不同主题的互动游戏。对于英国,游戏的主题设计为采茶游戏;对于德国,游戏的主题设计为猜建筑游戏;同时在这些游戏中把杭州的美景融入进去。对于法国,游戏的主题设计为美食拼图;对于美国,则设计了主题为中国功夫的游戏。
这些有针对性的宣传契合了各国网民的兴趣点,提升了宣传的效果。
3.竞争对手检测
你的竞争对手是谁?这个问题好像很容易回答。但是如果问你,你的竞争对手在消费者心目中的形象和你的品牌在消费者心目中的形象有什么差别,恐怕就不那么好回答了。更进一步的,你的产品与竞争对手的产品比较,短板是哪里?消费者为什么选择了竞品而没有选择你的产品?要回答这些问题,大数据可以帮上忙。
一方面通过对互联网上有关你的企业的产品和品牌数据的收集,你可以发现有哪些竞品总是与你的产品一起出现。这些经常与你的产品一起出现的竞品就是你的竞争对手。另一方面,可以收集你的竞争对手的数据,看看当你认为的竞争对手出现的时候,你的产品或品牌是否被提及,或者消费者是否把你和你认为的竞争对手进行比较。如果数据显示你经常和另一个或几个品牌被同时提及,那么这些品牌有可能就是你的竞争品牌。数据分析的结果有可能会支持你的判断,也有可能会打破你的固有看法——在消费者心目中,你并不是和你认为的竞争对手处在一个量级的。
找到了竞争对手,接下来就要分析你和你的竞争对手在顾客心目中的形象差别了。要回答这个问题,只有大数据才能够做得到。通过对于品牌和产品一同出现的描述性、评价性的关键词的分析,可以画出一张品牌形象地图,在这个地图上,你和你的对手在消费者心目中的形象和特质就一清二楚了。在此基础上,通过对消费者关心的特质,或者说是影响消费者最终决策的因素进行分析,就能够找出自己产品在哪些方面存在优势,在哪些方面存在不足。企业可以根据这些分析提供的有用信息重新设计自己的产品,调整宣传重点,这对于企业的销售会产生很大的促进作用。
4.市场调研预测,发现新市场和新趋势
在市场调研时代,人们要了解用户的需求和行为习惯常用的手段是市场调研。通过选取一些样本,对这些样本进行观察、调研和分析然后得出一些结论。样本通常是有限的和少数的,因为传统的市场调研对每一个样本的调研所花费的成本是很大的,例如企业要获得一份在街上对受访者的随机调查问卷平均需要付出200~300元的成本。成本高必然限制了调研取样的样本数。样本数小是传统市场调研的一个问题,但还不是最严重的问题。最严重的问题是选取的样本不具有代表性。例如企业想推出一款针对高收入白领女性的保健饮品,这样的饮品在目标客户群中是不是有需求呢?这需要进行市场调研。调研方法一是在街上随机选取年轻女性进行问卷调查,大家可以想象街上的女性很多,但是其中的白领占多少比例呢?调查了100个人,能够归入高收入白领的有几个呢?因此在街上随机进行问卷调查效果并不好。调研方法二是通过电子邮件进行文件调查,调查人员可以购买某一个城市的白领女性的邮件地址库,然后向她们发调查邮件。为了提高用户参与的热情,被调查者提交完调查问卷后会获赠一个价值5元的小礼物。这个方法虽然在用户聚焦上比方法一精准,但是用户可能只是为了得到礼物而填写问卷,因此填写问卷时的选项会非常随意,对一些敏感问题甚至会故意选择相反的选项。可以想象,这样的市场调研有可能会把企业引向错误的方向。把对这些样本分析得到的结论推广到整个市场,这其中的风险是很大的。如果采用大数据对用户的信息进行分析就可以准确得多。首先,大数据是对所有的人进行分析,克服了抽样没有代表性的问题。其次,大数据是通过对用户的行为观察来得出结论的,用户是在不知不觉中透露出来自己的喜好、自己所关心的事物、自己的消费能力等,这些信息比调查问卷准确得多。因此,基于大数据的市场调研相比传统的市场调研更加优越。
5.实现个性化营销,改善用户体验
案例分享 PRADA的大数据进化
PRADA是知名的奢侈服装品牌,在人们的印象中,这些奢侈品品牌应该是保守的、传统的,对新事物的应用总是会慢半拍。但是大大出乎人们的意料,在电子商务时代,这个传统的名牌也开始利用大数据来提升自己的销售了。
PRADA在自己的一些门店里开始了大数据应用的尝试。在这些门店里,PRADA的衣服上都被贴上了射频识别标签(RFID)。当顾客拿着一件衣服走进试衣间时,安装在试衣间里的设备会自动读出这件衣服的识别码。然后试衣间里的屏幕上会自动播出模特穿着这款衣服的效果视频。人们看到了模特穿着这款衣服的效果,会自然而然地想象自己穿上这款衣服也会是这样,这会大大地增加顾客购买的可能性。
顾客试衣服和之后的购买数据也会同时传递给PRADA的总部进行数据分析。上传的数据包括在哪个门店里哪件衣服被拿到试衣间里了,顾客在试衣间里停留了多长时间。这些数据都被用作对服装款式的分析。例如有些款式的服装被拿到试衣间的次数很多然而销售的比例却很低,那么可能是这款设计还有改进的余地或者是服装的定价出现了问题。这些信息都为调整设计和销售价格提供了参考的依据。
PRADA在应用大数据系统后,销量提升了30%,并且提升了消费者购物时的体验和满意度。
四、第三方大数据的利用
大数据这么好,是不是每个企业都需要建立一套自己的大数据系统呢?如果你的企业是一个拥有成百上千万客户的大企业,你最好是建立专属的大数据收集、挖掘、分析系统,这样可以为你的企业的决策带来巨大的帮助。如果你的企业规模不是很大,不能够拿出大量的资金来,你最好不要建立大数据系统,因为大数据系统是需要很大的资金投入的。那么中小微企业如何应用大数据呢?
这些企业可以充分利用外部的大数据资源为自己服务,一样可以达到目的。
第一种方法是企业可以聘请第三方公司帮助自己进行大数据分析。例如前面提到的杭州市宣传项目,就是利用第三方公司完成的。这些第三方公司拥有现成的技术手段和资源,能够收集互联网上的各种数据,同时他们还有专业的分析人员来建模分析这些数据。企业通过他们一样可以享受大数据的便利。
第二种方法更加省力和省钱,就是直接利用一些大的互联网公司提供的免费的大数据分析结果。这些免费的大数据资源很多,例如百度指数、淘宝指数、腾讯分析等。这三大大数据资源都是免费的,每个人都可以随时上网去应用它们。
百度指数的数据来源是基于百度搜索引擎每天搜索的关键词,用户搜索的关键词往往是用户需要的、关心的、感兴趣的东西。这里面包含了用户的消费需求,包括了社会热点等。百度指数通过对每天用户搜索的关键词进行分析,就可以把握社会热点的变化和网民关心的内容。企业可以利用百度指数搜索与自己企业相关的关键词,例如自己品牌的名称,就可以从百度指数上得到自己品牌在网络上的影响力。同时通过与自己品牌一同出现的相关词还可以了解到品牌在网民心目中的形象。
淘宝指数是淘宝网推出的免费数据分享平台,淘宝指数的数据来源是淘宝网上每天的购物数据。通过淘宝指数,企业可以了解淘宝网上的购物趋势。淘宝指数提供了产品的热销笔数,给出了某一品类商品近7天、30天的销量变化。人群指数,给出了购买某一产品的人群的性别、年龄、地域、消费层级分布。价格指数,给出了某一品类产品价格的平均值。相关款式给出了购买一种产品的人还会购买同一类目下的哪些其他产品。同时淘宝指数还包含了淘宝网内部的搜索指数,搜索指数给出了指数化的搜索量,搜索指数不等同于搜索次数,而是对数据进行了处理,反映的是一种搜索趋势。淘宝指数对于企业了解市场变化有很大的用处。例如一家服装店在什么时候进行商品换季,以前可能是根据经验来判断,这难免会出现偏差。现在可以利用淘宝指数,当淘宝指数上出现下一季服装的搜索需求时,意味着换季的时间到来了。
腾讯分析是腾讯公司推出的免费大数据应用。腾讯分析的一个用处就是帮助企业完善优化自己的网站。在以前,一个网站各个页面设计得是不是合理,没有人能够给出量化的答案。到底哪种风格的网页更受访问者欢迎,“确定”按钮放在什么位置最好,这些问题都没有答案,更多的是依靠网站设计人员自己的感觉。现在可以利用腾讯分析解决这些问题。腾讯分析工具中的基础统计分析可以展示网站的访问情况、访客来源、访问路径等,帮助网站开发人员清晰地了解访客在网站的行为。腾讯分析的特色分析功能可以帮助网站开发人员了解网站的运营情况,了解访客在网页上的点击行为。通过这些数据,可以挖掘出网站中哪些内容是访客关心的,哪种结构的网页更受访客青睐等。这些都有助于网站的优化,提升网站的宣传效果。
扩展阅读 苹果手机记录用户的位置
2014年7月,中央电视台曝光了苹果手机的定位服务会“默默”地记录用户的行踪,即使关机了,即使关闭了“常去地点”功能,手机的后台系统仍然继续记录用户的位置数据(点评:看来苹果手机把电池设计成不可拆卸的形式是有深意的呀)。苹果手机收集的用户位置信息,包括几点去了哪里、待了多长时间,并且可以从这些数据中分析出哪里是用户的家和工作单位等。有用户表示关闭“常去地点”功能不就可以避免被记录了吗?但是专业技术人员爆料说,即使关闭了该服务,手机仍然会记录用户的位置信息。用户的位置信息被用于各种用途,例如有些APP软件会自动获取用户位置信息,把用户在哪里使用了这些软件报告给开发公司。
位置信息是大数据的一种重要数据,如果只有一个孤立的位置数据,其意义不大,因为分析人员不知道这个位置的含义是什么,是办公室还是偶尔路过的地点,没有办法判断。如果有大量的位置数据,那么就能够根据这些位置数据的规律判断出用户的重要信息了。例如白天长时间待的位置最有可能就是一个人工作的办公室,晚上睡觉时长时间待的位置最有可能是家。根据一个人在一段时间里的位置数据能够还原出这个人的生活方式。例如手机的位置在下班时间经常出现在高端消费场所,那么这个人很可能是一个消费能力比较高的人士,各种APP在推送广告时就可以有针对性地推荐高端消费品、奢侈品的广告。
从位置数据的例子中大家也可以更加了解大数据的一个特点,就是少量数据价值低,大量数据里则蕴含着有用的信息。位置数据很好地阐释了这个特点。
第三节 电子支付
支付是电子商务销售的重要环节,如果没有网络支付的支撑,今天的网络销售不可能呈现出一派繁荣的景象。
电子支付是交易过程中一方通过数字化手段向另一方转移资金的过程。电子支付根据交易的场景不同,可以分为网上支付、电话支付、移动支付、销售点终端支付、自动柜员机交易和其他电子支付等。与电子商务密切相关的电子支付方式主要有互联网网上支付、移动支付。
一、互联网网上支付
目前国内的互联网在线支付有两大类型:第一类是由银行提供的网关支付服务,最典型的是银联,买卖双方可以直接通过银行提供的渠道进行账户间的资金转移;第二类是第三方支付工具,即由有实力、有信誉的第三方作为买卖双方的一个中介,在交易过程中暂时托管,降低买卖双方被对方欺诈的风险。第三方支付工具又可以分为两种:第一种是依托于大型B2B、B2C、C2C网络交易平台的支付工具,典型的如“支付宝”;第二种是独立的第三方支付平台,例如“快钱”。第三方支付平台对银行形成了一种补充关系,为网络电子商务交易提供了安全、便捷、经济的资金中转服务。
在我国的网络电子商务交易过程中,第三方支付平台起了非常大的作用。在我国诚信体系不健全的大背景下,第三方支付平台很好地解决了买卖双方互不信任、害怕被对方欺骗的担心,尤其是在个人与个人的交易过程中,第三方支付平台的公平保障作用更是不可缺少。可以毫不夸张地说,没有第三方支付平台,就没有今天欣欣向荣的互联网电子商务销售。
我们也应该看到另外一个方面,就是第三方支付平台在中国的电子商务交易中应用非常普遍,是一种很“有中国特色”的电子商务网络支付模式。在美国、日本这样的电子商务发达、信誉体系良好的国家里,第三方支付并不像中国市场这样发达。美国、日本虽然也有第三方支付平台,但是美国电子商务零售企业的主体是传统线下零售企业转型而来的,因此其具有非常高的信誉保障,不需要第三方支付来担保。以日本的乐天公司(不是韩国乐天)为例,日本乐天是日本最大的电子商务零售企业,线上支付的70%左右都是通过信用卡直接支付给乐天公司,其余30%很大一部分是采用货到付款的方式完成的交易。买家根本不需要靠把钱先支付给第三方机构来提防卖家不发货或发伪劣产品,卖家也不需要买家先把钱付到第三方机构来提防买家不付款。美国的亚马逊的电子商务零售体系中也不需要第三方支付的存在,苹果的应用商店也没有第三方支付的身影。所以第三方支付是现阶段一个非常有中国特色的东西。
几种主要的互联网第三方支付平台有PayPa(l贝宝,易趣公司产品)、支付宝(阿里巴巴旗下)、拉卡拉、财付通(腾讯公司,腾讯拍拍)、盛付通(盛大旗下)、易票联支付、易宝支付(Yeepay)、快钱(99bill)、国付宝(Gopay)、百付宝(百度C2C)、物流宝(网达网旗下)、网易宝(网易旗下)、网银在线(chinabank,京东集团)、环迅支付、汇付天下、汇聚支付(joinpay)、宝付。
1.PayPal
PayPal是eBay旗下的一家第三方支付公司,在中国被翻译为贝宝。PayPal在全球超过190个国家和地区支持20多种货币间的交易,可以实现资金的即时支付,即时到账。PayPal是一种国际贸易支付工具,而且能够通过中国的本地银行轻松提现,为外贸企业解决了外贸支付难题。现在,在跨国交易中超过90%的经销商和超过85%的采购商认可并使用PayPal作为电子支付工具。目前PayPal全球用户超过3亿。
PayPal的总部设在美国加利福尼亚州圣荷西市。
PayPal账户和PayPal贝宝账户间存在着一些差别。PayPal账户是“PayPal国际”账户,是针对具有国际收支需求的用户设计的国际贸易账户类型,是目前全世界范围内被广泛使用的网上第三方支付工具。PayPal账户可以支持美元、瑞士法郎、欧元、英镑、澳元、加元和日元等24种国际主要流通货币间的交易。PayPal账户主要用于国际贸易中经销商进行外贸收款、提现,或者国际采购与消费。PayPal贝宝账户,简称“贝宝”账户,是PayPal公司专为中国用户推出的中国本土化产品。产品主要为拥有人民币单币种业务需求的企业和个人服务,帮助用户在贝宝账户和银行账户之间进行人民币转账。现阶段,贝宝产品为使用用户提供全免费的服务。PayPal和贝宝是两个完全独立运作的网站。由于中国实行外汇管制,贝宝仅受理与人民币相关的业务。如果企业从事的是国家贸易,那么PayPal账户将是更好的选择。同样由于外汇管制,中国的PayPal用户不能在自己的PayPal账户里添加一个关联的银行账户。而在其他国家中,用户可以在PayPal账户中直接关联一个银行账号,这样PayPal账户里的钱就可以直接转入相应的银行账号。这种转账支持多币种业务。中国的PayPal账户用户取外汇的唯一办法是在自己的PayPal账户里的外汇金额超过150美元或等值外币后,由PayPal开张外汇支票,该支票会寄给用户,用户在收到外汇支票后,到相应的银行去办理托收。
使用PayPal交易,如果使用网站、账单和电子邮件付款,则每笔交易的收费标准是交易额的4.4% + 0.30美元或以收款币种计算的近似固定费用;如果采用eBay付款,则每笔交易的收费标准是交易额的3.9% + 0.30美元或以收款币种计算的近似固定费用;对于接收数字商品付款时,按标准费率和小额付款费用中较低的费用为准,其中小额付款费用的收费标准是每笔交易的6.0% + 0.05美元或以收款币种计算的近似固定费用。
PayPal的收费体系是鼓励经销商使用PayPal收款,随着买卖双方交易额的增大,PayPal会给经销商一定比例的返利。
2.支付宝
支付宝是国内领先的第三方支付平台,致力于提供“简单、安全、快速”的支付解决方案。支付宝公司从2004年建立开始,始终以“信任”作为产品和服务的核心,旗下有“支付宝”与“支付宝钱包”两个独立品牌,自2014年第二季度开始成为当前全球最大的移动支付厂商。
支付宝主要提供支付及理财服务,涉及网购担保交易、网络支付、转账、信用卡还款、手机充值、水电煤缴费、个人理财等多个领域。在进入移动支付领域后,为零售百货、电影院线、连锁商超和出租车等多个行业提供服务,还推出了余额宝等理财服务。
支付宝与国内外180多家银行以及VISA、MasterCard国际组织等机构建立战略合作关系,成为金融机构在电子支付领域最为信任的合作伙伴。
2003年10月,为了配合淘宝平台的销售业务,淘宝网首次推出支付宝服务。2004年,支付宝从淘宝网分拆独立,成立了支付宝(中国)网络技术有限公司。支付宝除了为淘宝、天猫提供在线支付服务以外,逐渐向更多的其他合作方提供支付服务。
2013年,支付宝实名认证用户超过3亿。支付宝手机支付完成超过27.8亿笔,金额超过9000亿元,成为全球最大的移动支付公司。根据互联网研究机构的数据显示,2013年4月,支付宝在移动支付市场的份额从67.6%提升到了78.4%,位居国内市场第一。同时,用户数、支付笔数均超过PayPal,成为全球最大的移动支付平台。2014年,支付宝每天的移动支付笔数超过2500万笔,单日交易笔数峰值达到4518万笔,单日交易数额峰值达到113亿元人民币。
支付宝在支付领域进行了一系列创新。2009年,支付宝推出了首个独立移动支付客户端,2013年年初更名为“支付宝钱包”。现在支付宝钱包已经成为与支付宝并行的独立品牌。2010年10月,支付宝推出国内首个二维码支付技术。2010年12月,支付宝与中国银行共同推出了信用卡快捷支付。快捷支付是指支付机构与银行合作直连,形成一个消费专用的高效支付方式。到2014年年中,有180多家银行开通快捷支付服务。在支付宝推出该业务之后,财付通、银联等第三方支付机构都推出“快捷支付”。2013年4月,支付宝与合作方共同推出全球首个声波售货机。
3.财付通
财付通(Tenpay)是腾讯公司在2005年9月推出的在线支付平台。财付通与拍拍网、腾讯QQ有着很好的融合,目前有超过20多万家购物网站支持财付通支付。按交易额来算,财付通市场份额为20%,仅次于支付宝,排名国内市场第二。
二、移动支付
移动支付是用户使用移动上网终端进行资金支付的行为和过程。移动支付有多种形式,技术也分为很多种。常用的移动终端包括智能手机、各种平板电脑等,其中基于智能手机的移动支付使用最普遍。
移动支付按照使用的场景可以分为近场支付和远程支付两种情形。
近场支付的情况包括手机刷卡支付地铁、公交票款,零售终端手机刷卡付款等。近场支付需要手机通过射频信号、蓝牙通道或者红外通道与商家的终端机建立通信连接,然后智能手机与终端机件进行“无线刷卡”,完成付款过程。大家可以把这种情形中的手机想象成为无线射频智能卡,手机具备了近距离小额支付能力。近场支付是移动支付中最方便也是最重要的应用方式。近场支付需要对手机或者手机的SIM卡进行升级或者改造才能够实现。目前的移动支付技术实现方案有双界面CPU卡、SIM Pass技术、RFID-SIM、NFC技术、智能SD卡等几种。目前,国家层面的移动支付标准(近场支付)还没有出台,未来很可能近场支付的标准会兼容几种方案。
远程支付是指通过手机上网完成的网络支付。远程支付的过程中手机需要连接到互联网或者运营商的专用网络,与远端(例如银行)进行身份、账户信息的交换。远程支付包括几种形式:手机刷卡(POS机)、手机端网络支付、电信运营商直接扣费。
移动支付按照是否对手机进行硬件方面的改变可以分为三种情况。
第一,不对手机硬件进行任何改变。此种情况下有两种移动支付的方法。一种是利用手机登录移动互联网的网站,在移动互联网上完成付款。此时使用手机付款与使用电脑付款没有太大区别。另一种是通过发送短信或者一组代码的方式来完成付款,此时款项可以直接从话费中扣除或者从手机银行的账户中扣除。
第二,手机更换智能卡。这种情况主要是近场支付的情况。通过对手机的硬件改造使手机集成银行卡的部分功能。
第三,手机连接或者集成刷卡设备,此时手机变成了一个POS机,用户直接在手机上刷卡消费就可以了。有一些型号的手机直接就集成了刷卡槽,可以直接读取银行卡上的磁条或者芯片。还有一种外置的刷卡设备,可以插在手机的某个插口上,可以通过这个外置的刷卡设备完成银行卡磁条或者芯片的读取。不论哪种方式,刷完卡后,手机都通过网络与银行或者第三方服务商建立连接,完成刷卡付款的过程。与前面两种移动支付方式所不同的是,利用手机刷卡时消费者(付款方)使用的手机是商家(卖方)的,即卖方把自己的手机变成了POS机,付款方在POS机上刷卡。前两种方式中,付款方都是在自己的手机上操作。把手机变成POS机的方案比较适合小微零售商或者移动收款的情形,这样商家就可以避免在银行申请POS机的严格限制和烦琐手续。目前手机变POS机的服务和设备主要由银行以外的第三方服务商提供。
三、几种重要的电子支付手段
1.电子钱包
电子钱包这个说法有一段时间很火,大家经常听到的“以后出门只带一部智能手机就可以了”就是在手机中集成了电子钱包功能后的场景。电子钱包包括两种概念:一种是基于智能卡的小额支付,持卡人需要在智能卡中存储的账户中预先存入一定的金额,交易时直接从智能卡的账户中扣除交易额;另一种是通过上网的方式对银行账户内的资金进行使用。可以看到,第一种方式就是近场交易,第二种方式就是手机端网络支付。电子钱包还可以集成各种会员卡等。
2.二维码支付
二维码支付本质上是一种移动支付手段。二维码支付有两种方式。其中一种方式是销售点终端支付。用户在消费点完成了某一项购买行为后,商家在收款终端机的屏幕上生成一个付款的二维码,二维码中记录了付款金额等信息,用户用手机中二维码付费应用扫描二维码后激活付款操作完成付款。另一种方式是商家把与某种商品相关的商品价格、收款账号等信息汇编在一起生成一个二维码后印刷在宣传页、广告、平面媒体上或者展示在多媒体广告终端屏幕上,用户看到该商品广告后通过手机扫描该商品的二维码,这样就直接完成了下单操作并进入付款环节。用户在付款环节通过其他网络支付手段进行付款,完成购买行为。二维码支付非常方便,但是面临着安全问题。二维码扫码工具只有二维码解读功能,并没有恶意网址识别、拦截能力,因此用户在使用二维码支付时面临着被接入恶意网站、手机中病毒等风险。
二维码技术产生于20世纪70年代的美国。二维码用深色和浅色的点或块代表数字技术中的0和1,可以记录非常丰富的信息。通常的二维码由黑白相间的方格构成,是大家常见的二维码形式。在2011年,随着二维码个性化算法的进步,有机构研发出具有丰富色彩、包含特殊形状的二维码,甚至在二维码中添加背景图,使二维码摆脱了“熊猫样”。
3.微信支付
2013年8月,腾讯在微信5.0版本中开通了微信支付功能。使用微信的用户,需要在微信中与微信号绑定一张银行卡的卡号,并完成对用户真实身份的验证,手机就开通了微信支付的功能。但是微信支付所能够使用的场景非常有限,只能够在几个特定的功能中使用。2014年3月,腾讯对通过微信认证的服务号全面开放微信支付。希望使用微信支付功能的认证商家只需要与腾讯签订合同并缴纳一定数额的保证金后,即可开通使用微信支付功能。
目前微信支付已经与国内排在前面的几家银行开通了接口,使用这些银行借记卡、信用卡的用户都可以开通微信支付。
微信支付的可能应用场景如下。
(1)扫二维码支付
用户在微信中通过扫描二维码功能扫描了线下的付款二维码或者PC端屏幕显示的二维码后,可以直接激活微信支付的交易页面,开始微信支付流程。
(2)公众号支付
微信用户在自己关注的微信公众号中或者微店中购买了商品或者服务,可以直接在付款环节输入微信支付密码,即完成了微信支付。
微信支付虽然使用了财付通的牌照和支付后台,但是微信支付的账户与财付通的账户是没有任何关系的。微信支付是没有电脑网页端的,是一个纯粹的、内置在微信中的支付工具。因为微信支付限定了使用的场景和环境,所以其安全性也是高于电脑端的各种第三方支付工具的。对于客户来说,付款过程中只有一个输入6位密码的环节,大大增强了使用的便利性。
(3)第三方应用(APP)商城支付
由第三方开发和运营的APP商城可以选择微信支付作为商城的支付手段。APP商城通过与微信支付之间的协议,把微信支付内置到商城的付款环节中,从而能够很方便地在手机端实现在线支付,为企业在手机APP商城实现销售带来了非常大的便利。
微信支付的一些规定。
第一,只要在银行开办银行卡时预留了手机号,即可以绑定微信支付,绑定后大多数银行的银行卡甚至无须开通网银即可进行网上支付,但是中国工商银行和中国银行的银行卡需要开通网银才可以。
第二,一个微信号只能够与一个实名信息进行绑定,绑定银行卡时需要验证持卡人的姓名、身份证信息。绑定后的实名信息不能修改。
第三,一个微信号可以绑定最多10张银行卡或信用卡,而一张银行卡或信用卡可以绑定最多3个微信号。同一个身份证号码最多能够注册10个微信支付。
微信支付与手机移动支付有相同点,也有不同点。微信支付在使用场景上与移动支付有相似之处,都是使用手机完成付款动作。微信支付与移动支付的不同点在于微信支付是通过微信这一通信渠道与银行间发生的资金转移、支付行为,参与各方包括用户(微信账号)、银行、收款方。而且微信支付的收款方一定是开通了微信支付的商家。微信支付几乎不需要特定的硬件支持,是一种全网络化的支付方式。手机移动支付是手机的SIM卡中集成了银行卡的功能,相当于把银行卡内置到了手机中。使用手机支付本质上还是一种“无线刷卡”行为。手机支付需要相应的硬件支持,用户的手机要支持移动支付功能,商家要有移动支付终端,所以不是任何一部智能手机都能够进行手机移动支付的。
第四节 移动互联
移动互联,即移动互联网(Mobile Internet,简称MI),是基于移动通信网络或无线网络的互联网接入方式、互联网技术、平台、商业模式和应用等活动的总称。移动互联网是互联网的一部分,但是移动互联网给人们使用互联网的方式带来了革命性的变革。人们不用再被网线束缚,而是能够随时随地地接入互联网,享受上网的便利。移动互联网的上网终端不再是台式机、笔记本电脑,而是智能手机、平板电脑等移动终端设备。当然,笔记本电脑在移动互联网中也仍然是重要的终端。
随着3G、4G技术的广泛应用以及智能终端设备的发展,移动互联网的兴起被注入了巨大的能量,移动互联网的相关应用和服务呈现井喷式的爆发,移动互联网产业已经成为下一个互联网技术发展的热点。
移动互联网的兴起得益于几个方面的技术进步,主要是移动通信技术的突破性发展。现在普遍应用的3G通信技术的理论下行传输速度最高可以达到3.6Mbit每秒,理论上行传输速度峰值也可以达到384kbit每秒。这样的网络速度使得应用3G网络浏览互联网成为可能。在2G时代,移动通信网络的传输速度慢是影响用户移动上网体验的致命缺点,也注定了2G时代移动互联网不可能蓬勃发展。2002年,国外已经开发出了3G技术,我国也在2003年开发出了中国标准的3G技术。直到2009年,3G技术才真正开始大规模应用于商业。目前国内存在着三种3G标准,分别是中国移动的TD-SCDMA、中国电信的CDMA2000、中国联通的WCDMA。这三种标准互不兼容,给移动互联网的应用和推广带来了不少困扰。例如一个用户购买了CDMA2000制式的无线上网设备,他就只能使用中国电信的3G网络,而不能使用另外两家的3G网络。如果一个智能终端设备商要提供一种能够为移动、电信、联通3G用户服务的设备,那么他的设备中就需要集成三种制式的3G模块,这不但增加了成本,也会造成巨大的浪费。三家公司的制式不同,用户如果想携号转网,那么他只能更换设备,这也是很大的浪费。困扰中国移动互联网应用的另一个问题是3G上网费用相对于发达国家来说还是比较贵的。
第五节 云计算
“云计算”(Cloud Computing)这个名词最早是由Google公司在2006年正式提出的。“云”是互联网、电信网的一种比喻性说法,因为在过去画IT系统的网络拓扑图时常常用云形图案来表示电信网或者互联网,所以现在把基于互联网的这种业务模式称为“云计算”。云计算是指基于互联网的IT基础设施、相关服务的提供、使用模式,通常相关设施和服务是虚拟化的,并且具有易于扩展性。
在云计算这一说法被提出之前,在IT界已经有了相关技术和应用的雏形。有一项很早就开展了的并且现在仍然在进行中的“地外文明搜寻计划(SETI)”,该计划是利用大型射电望远镜接收来自外太空的无线电信号,然后对这些信号进行分析,从中寻找可能是智慧生命发出的信息。这一计划说起来简单,但是面临着一个巨大的技术难题就是射电望远镜接收到的来自外太空的射电信息的数据量太大了。例如世界上最先进的无线电射电望远镜——格林班克100米口径射电望远镜灵敏度很高,1秒钟就要接收1G的数据量,而全世界范围内有多台类似的射电望远镜在时刻不停地从外太空接收数据。这么大量的数据要及时处理需要非常强大的计算能力,这个计算能力已经不是几百台或者几千台计算机能够担当的了了。为了解决这一问题,人们想出来一个“在家寻找外星人(SETI@home)”计划,就是把数据分配给全世界几百万台个人计算机,让这些个人计算机在闲暇时参加到数据分析计算中来。具体参与过程是如果个人愿意把自己计算机空闲时的计算能力贡献出来,那么他只需要在个人电脑里下载一个客户端程序,并保持电脑联网,那么他就参与到这个项目中来了。客户端里有被认为是智慧生命发出的无线电信号的识别程序。电脑会在空闲时在后台下载射电望远镜收集的海量数据分解出来的一个个小数据包,每个数据包大约330KB大小。电脑每次下载一个数据包进行计算,完成这个数据包的计算后,把结果提交给服务器,然后再下载下一个新的数据包。目前全世界已经有上亿台计算机加入了这一计算行列,这上亿台计算机就构成了一个最大的虚拟超级计算机。从控制这个项目的服务器的角度来看,它并不知道有哪些电脑将要加入这一计划而哪些电脑会在下一时刻退出计算,每个时刻参与的计算机数量都是不同的。更进一步的,完整的射电数据被分解成小的数据包后,每个数据包被分配到哪台计算机上是随机的,数据包被处理完成后返回给服务器也是没有规律和顺序的。服务器如何管理这些计算机尤其是管理好分配到全球各地的数据成了至关重要的工作。其实这就是云计算的雏形。
云计算通常包含两层含义,即狭义的云计算和广义的云计算。狭义的云计算是指基于互联网的信息系统基础设施的提供和使用模式,也就是用户通过网络按需取得所需要的硬件、平台、软件资源,而提供这些资源的网络对用户来说就是云,因为用户并不知道这些硬件、软件资源分布在互联网的什么地方,他只是这些资源的使用者。在需要时,他能够容易地得到这些资源,在不需要时,他又把这些资源交还给云。这些资源很可能在下一时刻就被其他的用户所使用。在使用者看来,云中的资源是无限的、可随时取得的,他可以像随时使用家中的自来水、电一样来使用云中的资源,只需要按使用的多少来支付一定的费用即可。广义的云计算是指各种可以在网络上传递的服务的提供和使用模式,用户所需的服务可以通过网络随时、可扩展地取得。
对用户来说,云计算最大的好处就是方便、节约软硬件投资。既然拧开水龙头就可以流出水,那么谁还会去自己挖井?如果用户所需要的各种硬件、软件资源和服务都可以从“云”中随时得到,那么用户就没有必要自己去购置这些硬件、软件,而只需要从云中“租”这些资源就可以了。云计算的普及将使硬件和软件的使用成本大幅度地降低。相应的,企业的数据资源也可以存储到云中。云存储的容量几乎是无限的,企业的存储成本也可以大幅度降低。
随着云计算的普及,出现了公共云(Public Cloud)与私有云(Private Cloud)两种云业态。公共云就是云中的资源由多个硬件或者软件服务商提供,而云资源也为多个不同的用户所共享。用户无须架设任何硬件设备和配置软件,也不需要配备软硬件管理人员就可以享用这些IT服务。对于大多数企业来说,这是一个减少投资、降低成本、提高信息系统建设速度的捷径。像我们常用的各种网络邮箱产品,例如163、qq邮箱都属于公共云。对于像银行、证券、保险等行业,其数据的安全性非常重要,客户的信息和数据是绝不能泄露的。但是这些企业也有降低成本而采用云服务的需要,所以这些大企业倾向于架设属于自己的私有云网络,这样既可以享受云服务的便利,又可以降低运营成本。
从技术角度讲,根据云所提供的资源类型的不同,云计算可以分为三种类型。
Infrastructure-as-a-Service(IaaS,基础设施即服务)、Platform-as-a-Service(PaaS,平台即服务)、Software-as-a- Service(SaaS,软件即服务)。我们前面提到的163、qq邮箱即属于SaaS的一种。
Iaas:用户通过云能够便捷地获得IT基础设施。IaaS提供的资源包括计算能力、存储能力、网络服务能力等。用户在这些资源上部署运行自己的各种软件并得到相关服务。在IaaS模式下,用户能够通过控制操作系统、各种应用软件来实现自己的IT功能。打个比方来说,IaaS模式就好比你租了一套房,房间里没有任何家具,这些家具(软件)需要你自己来配齐。
PaaS:用户通过云能够获得软件研发的平台(Platform)。PaaS能够为用户提供研发软件所需的中间件平台,用户可以基于PaaS快速开发自己所需的各种应用和产品。PaaS减轻了企业开发工作所需的支持平台的获取难度和成本,使企业可以把精力和资源都投入产品的开发中去,提高了开发工作的效率。相对于IaaS来说,PaaS提供的就不仅仅是一座空房子,而是在房间里配上了家具。
SaaS:用户通过云获得软件服务。用户不再需要购买软件,而是租赁(或者免费获得)软件使用权,可以直接基于这些软件开展自己的业务。SaaS相对于PaaS又进了一步,房间里不但有家具,还配上了保姆,用户可以直接在这样的房间里生活了。SaaS提供的服务大多通过浏览器网页接入,用户只要上网就可以方便地获得各种服务。SaaS的出现,是互联网技术和软件技术发展的结果,是软件产业的一种创新的应用模式。用户使用软件时,不再需要购买软件了,而是在互联网上直接就可以使用相关软件的功能,用户只需要为使用付出少量的使用费或者这种使用是完全免费的。SaaS模式颠覆了以往软件公司的盈利模式,是一种互联网时代的商业模式,与互联网精神是契合的。SaaS提供的服务除了我们每个人都在使用的电子邮箱服务外,还包括各种基于网络的企业OA(办公自动化)、CRM(客户关系管理)、HRM(人力资源管理)、SCM(供应链管理),甚至是ERP(企业资源管理)等。以前企业想要使用这些软件,通常需要花费几十万甚至上千万来购买这些软件,同时每年为维护、升级这些软件也需要花费大量的资金成本和人力成本。现在企业能够以极低的成本在网上获得相关软件的功能,这不但减少了资金的投入,而且企业无须再配备大量的IT专业技术人员,而且在实现时间上也大大加快。概括起来,企业以SaaS方式取得各种云服务具有六大特点:低建设成本、低投入风险、低维护成本、低人力占用、低应用门槛和快速实现应用。可以预见,SaaS模式将成为未来大多数企业特别是中小企业的主流软件应用方式。
云计算与物联网的关系:物联网是通过布置在真实物体上的电子标签将这些物体连接入网络,以实现对机器、设备、物品等进行智能管理。平均每个人周围可以接入物联网的物品多达1000~5000个,所以全世界的物联网可能要包含500~1000兆个物体。这些物体所产生的数据是海量的,处理这些数据需要强有力的IT能力。而云计算正好可以提供物联网所需的IT服务,所以云计算是物联网发展的助力器,物联网有可能成为云计算服务的最大类用户。
云计算与大数据的关系:从前面物联网的分析可以看出,物联网就是一个大数据源。云计算的长处就是处理这些海量的大数据,所以云计算与大数据的关系有些类似生产设备和被加工的产品之间的关系。云计算提供了某种能力,而这种能力可以被用于处理大数据。对大数据的加工处理是人们真正想要的东西,而云计算恰好提供了这样一种处理能力。
云计算要求用户把自己的数据都放在云中,而云是属于云服务提供商的,这就带来了一个问题,就是如何保护用户的数据安全和隐私。这个问题可以分成两个层面,第一个层面是用户的数据如何不被第三方(黑客)恶意得到。这涉及云服务提供商的云系统安全性,目前各个云服务商都在不遗余力地提高自己系统的抗攻击性,以防止第三方窃取数据。第二个层面是云服务商如何不滥用、不泄露客户的数据。理论上,云服务商的IT技术人员是能够看到客户的所有数据的。虽然各服务商都承诺避免收集用户的隐私,保证不让己方的人员接触到客户的数据,使用户数据不至于泄露,但是这些承诺还是不能够完全消除掉用户的担忧。这也是一些企业为什么在云时代依然选择花大价钱去开发自己的IT系统,而不使用云计算的有关服务的原因。