现在全世界的学术界、新闻界、商界,包括政府都在讨论大数据时代,而现任牛津大学教授的维克托•迈尔-舍恩伯格所写的《大数据时代》,是其中的代表性著作。所谓“大数据”,是指其规模超出了现有采集,储存和分析的数据总量,是一个定性的描述方法,意指人类现在所面临的数据量、数据增长和数据类型,超出了以往的规模,以其“大”的定义,告诉我们人类已经进入了一个数据无处不在、数据爆发性增长的新时代。在大数据时代,人类仅凭所拥有的数据总量,就可以更加清楚地判断出事物之间的关系。比如,美国国家邮政局在邮政车上,都安装了传感器的装置,它们能在将邮件送到每个社区时,实时地采集该社区的噪音、空气质量指数,如此一来,科学家能更加准确地了解到各个不同区域的空气、噪音等环境质量的精确指标。
在大数据时代,人类突破了以前数据采集的困难,不再仅依靠抽样的小样本数据,而是拥有了对一个事物的全数据。美国利用穿梭在各地的车辆,实时地收集各类天气的数据,使得当地的天气预报的准确性大大提高。在大数据时代,人类可以搜集各类不同的数据信息,不再追求单一数据的精确性,而是依靠更大的数据总量,来支撑对事物的判断。在美国,人们在手机上输入某个产品的名称,就可以得到关于该产品被召回、被消费者投诉和媒体评价的信息,从而更加理性地消费。我们说,大数据时代所带来的绝不仅仅是数据量的大小,而是将带来人类思维方式、工作方式和决策方式的变革。国际著名的咨询机构麦肯锡公司称之为“大数据:下一个创新、竞争和生产力的前沿”,美国政府在2012年发布了《美国联邦政府大数据研发计划》,明确表示要抢占下一个比石油、煤炭更为重要的资源。
关于数据对质量的价值,美国著名的管理学家、统计学家戴明曾经说过,“除了上帝,任何人都必须用数据来说话”,戴明作为享誉世界的统计学家、管理学家和质量管理学家,这三个专家的称谓集于一身,本身就表明了质量是以数据的统计为基础。无论是质量固有特性的测量,还是顾客满意的评价,实际上都来自于数据的表达,可以说没有数据,就没有质量,任何质量都是基于数据的评价和统计。
在人类进入大数据时代的背景下,质量是否也进入到了大数据时代呢?我们非常有必要对这个问题,做一番认真的分析。第一个分析当然是大数据时代最重要的条件,那就是互联网的普及。实际上,这几年来无论是中国,还是世界其他国家,质量问题之所以如此被人们广泛关注,又如此让大家感到不满,其中一个重要的原因就是互联网的普及。在互联网上,哪怕是一个非常小国家的某个普通消费者,只要他在网络上发布了一条不好的质量安全信息,瞬间就可能会被转发到全世界的每一个角落,并让消费者人人自危。互联网所带来的质量数据,是我们以往任何一种方法都不可企及的,因为每天每一个消费者都可以随意地而实时地,在互联网上发布对他感到不满的质量问题的信息,这些数据累积起来就是大数据。所以,互联网的普及,毫无疑问地把我们拉入到了质量的大数据时代。
第二个分析就是数据获取技术的进步和普及。大数据时代的很多数据不是来自于人本身,而是来自于物体本身,如很多发达国家通过各种传感器,使得车辆、机器和物品都能传递物体的信息,这一点在我国也越来越普及,比如在很多人的车辆上所装载的GPS系统,就在时刻地传递有关这辆车的各类信息。再比如,在重庆、北京,通过在电梯上安装传感器,在监控中心能够实时地获取电梯运行的各类数据。如今,这些数据获取技术的成本已经越来越低,比如,射频技术(RFID)已经便宜到可以在一个鸡蛋上应用,使得各大型商场对于每一件商品的来龙去脉都清清楚楚。传感器和射频技术的普及,使得我们对物体的运行性能、质量安全状态有了更为方便的数据获得方法,这在环境质量、工程质量中也将会得到越来越广泛的应用,目前,很多桥梁上就安装了这样的传感器,监控中心能实时地获取这些桥梁承载的安全指标。
第三个分析就是信息工具的个人化。以前只有专业机构用得起的信息采集仪器,现在已经被个人所广泛使用,比如便携式的血压、心脏和其他人体器官的监测仪器,使人们能够实时地获得自身健康的相关指标。更不要说现在已经普及到几百块钱一个的智能手机,使人们获取视频影像信息和声音数据信息,变得非常便捷和快速。网上的“表哥”、“微笑哥”等官员,就是因为网民的一张手表图片、一张微笑的面部表情图片,而招来的“灭顶之灾”。实际上,现在国内外有很多消费者,每天通过个人简单的手持信息设备,在网上发布大量的有关产品、服务、工程和环境的图片、声音和视频的质量数据。有些企业也开始通过这种低成本的信息工具,在网上实时地公开自己生产现场的视频,让每个消费者能在网上看到产品生产的全过程。实际上,政府、企业每天也在应用这些新的信息工具,产生大量的质量监管和质量管理的数据。以上所分析的这些大量的数据,都是在传统的工业时代所不可能大规模拥有的,更为重要的是,这些数据几乎以秒为单位在快速增加。从这方面看,我们说质量确实已经进入了大数据时代。
接下来,我们需要研究的是,质量进入大数据时代以后,质量的大数据有哪些主要的类型呢?第一类,是来自于消费者在使用中的质量数据,这是质量大数据的主要类型;第二类,是来自于物体的质量数据,包括产品的质量数据、检验机构的质量数据;第三类,就是来自于政府在质量监管业务中所产生的质量数据。当然还有一些其他类型的数据,但主要是这三类。这三类数据分别对应了质量的三个不同主体,使用中的质量数据对应的是消费者主体,物体的质量数据主要对应的是企业主体,监管业务的质量数据对应的是政府主体。分析和清晰地划分大数据的类型有着特别重要的意义,大数据就意味着各类数据之间要相互兼容,要有更多不同类型数据的呈现,才能找到质量之间的相关性。比如,政府质量监管业务中所产生的业务数据具有抽样样本的代表性,但有时由于样本量太小,并不容易得出对这个行业产品质量风险的判断,如果加上消费者所提供的大量质量数据,就较容易得出某一个产品领域的风险状况,从而做出更为科学的监管决策。目前的问题是,我们的质量大数据已经出现,但是相互之间却是隔绝的,不能真正地发挥质量大数据的应有价值,这就需要政府监管部门创新思维,开门搞监管,开门获取其他类型的质量大数据,而不是对那些小作坊式的数据都通过本部门的亲历亲为,一谈到需要其他类型的质量大数据,就开始自己搞投入,建机构。实际上,大数据时代的质量监管,就意味着监管部门必须与社会其他主体,共同分享质量的数据。
质量大数据的价值,并不在于这些数据本身,而在于通过对这些数据的分析而得到应用,这才是数据能成为资源的原因。我们武汉大学质量院作为中国知名高校中专业的质量研究和教学机构,近几年来一直在做质量数据分析的研究,为此我们专门建了两个平台:一个是中国质量观测基地,另一个是中国质量网络信息监测与预警平台。前者主要是通过线下的消费者实地调查,获得有关产品、服务、环境和工程的质量满意度、质量安全、政府质量公共服务和消费者质量素质等方面的数据,这些数据的获得是基于连续性的观测;后者主要通过互联网的语义分析技术、数据挖掘技术和智能决策支持技术,实时地监测和获取消费者有关质量的各类信息。我们目前获取的质量数据总量已达到500多万条,而且还在以分钟为单位不断增加。我们之所以花这么多投入,包括资金、人力和时间,主要不是为了获得数据本身,而是要通过这些数据来找出不同地区、不同领域、不同行业的质量状态的普遍特征,尤其是要找出质量安全风险演变的一些规律性的东西,看某一类型的产品是哪些企业、在什么时段更容易出现质量安全问题,找出问题背后的规律。比如,私人轿车因为质量而出现安全问题,到底在一天内的哪个时段更容易出现,问题的出现是与天气的关系大,还是与道路的状况关系更大?这些规律性的问题,只有在大数据的条件下才能得出结论。在这里,我还可以给大家推荐另外一本研究大数据的著作,那就是全球复杂网络研究权威,美国东北大学教授艾伯特-拉斯洛•巴拉巴西所著的《爆发》。这本书提出基于大数据,人类的行为都是有规律可循的,因为更多的数据会更真实地呈现出某一种行为的规律性。实际上,美国纽约警察局就是因为对大数据的详细分析,而得出哪个时段,哪个区间更有可能出现某种类型的犯罪行为,并将这样的数据分析开发成了一套软件系统,支撑警力的配备,有效地降低了当地的案件发生率。我们对大数据的研究,一方面是要找出描述性的数据,要得出不同领域和不同类型的质量状态是什么,另一方面是要找出预测性的数据,找出哪些区域的企业或哪种产品类型,可能会在什么时段或季节出现质量安全问题。我们说,提出对未来质量安全的趋势性预警,就是质量大数据研究的最大价值,而随着质量大数据时代的到来,这一价值会得到更好的体现。