我们为什么要做质量监测
—— 三谈“质量大数据”
发布时间:2013-03-29     字号: [小] [中] [大]

    我们前面阐述了质量观测的重要性,也就是要走进真实世界的消费者。但与此同时,我们还要关注虚拟世界的消费者,就是那些在互联网上发布各类质量信息的消费者。对于真实世界的消费者,我们还可以近距离去观测他们,了解他们真实的消费行为;而对于网络虚拟世界的消费者,我们则只能通过互联网的有关信息技术手段,来监测他们所发表的对于质量的各种说法和意见。我们说,只有把真实世界和虚拟世界消费者的意见全部收集起来,才是真正的质量大数据。所以, 决定不仅要做真实世界消费者质量数据的观测,还要做网络虚拟世界消费者质量数据的监测。
    关于监测的价值和作用,在下面还要谈到,我们就先来讲一讲监测从什么地方起步的问题。既然要监测网上虚拟世界消费者的质量信息,我们首先要做的就是搭建一个网络平台,它不仅要有能力实时地从互联网上获取消费者的质量数据和信息,还要将这些数据和信息存储起来,有相应的网络安全管理的工具,配备大量的数据库和服务器和大量专业的维护和管理人员。我们说在中国做质量建设很难,关键就难在我们不仅要有观念和理论的创新,还要有硬技术的创新。质量学科是一门“软科学”加“硬技术”的交叉性学科,我们所做的质量监测平台,一开始就从硬技术的搭建起步。
    我们要监测了这些来自于不同信息源,包括网站、社区论坛、博客和微博,特别是移动互联网上的各类信息后,还要详细地对这些信息进行数据识别,因为,虽然这些信息文本反映的是质量问题,但各种文本表达方式、含义千差万别,要用语义分析技术对它们进行甄别。为此,我们建立了中国第一个网络质量数据信息的语料库,也就是根据不同的产品类型、性能和特点,提炼出反映这些问题的消费者所使用的关键词汇,这些词汇的汇聚随着时间的推移,构成了庞大的质量语义方面的语料库。说得更通俗一点,就是识别网上质量数据信息的词汇仓库,它将海量的质量信息,进行分门别类的收货和打包,然后再将其放在不同的货架上,让我们方便地使用。在语义识别的基础上,我们还结合反映企业质量的类型,将这些数据信息反映的内容进行逐一分类。通过识别和分类,我们可以清楚地看出一个企业、一个产品到底是哪些方面质量问题。当然,对数据的监测还不是最重要的成果,要对这些分类好的信息数据进行再分析,看到这些数据背后更深的含义,这才是最重要的。我们之所以将这个网络监测平台称为“深度网”,原因就在于我们要从中挖掘出一些更有深度的知识,尤其是挖掘这些数据对质量安全的预警,特别是找到不同数据之间的关联性和逻辑性和规律性。
    我们建设这个监测平台已经用了接近5年的时间,每年的投入花费都以千万元计算,目前,我们已经积累了大量的质量数据,正在将这些数据陆续地发布出来,包括让消费者在自己的智能手机终端上安装质量数据软件,可以实时地查询和获取,武汉大学质量院通过监测和分析而发送的相关质量数据,为消费者的日常消费和购买,提供一个质量数据的指南。要建设好中国的质量,需要社会各方面的力量,武汉大学质量院当然义不容辞要为之努力,而且我认为,为广大消费者服务,这是作为一个大学的质量专业机构最应该去做的社会服务。因为,中国的消费者非常缺乏有效的质量数据,常常是盲目地进行消费,这除了消费者自身的原因外,更重要的责任,还是来自于我们的社会没有为消费者提供更多更全面的质量数据。现在很多人都愿意搞慈善,但慈善的领域并不仅仅局限在扶贫,为消费者提供有价值的或免费的质量数据,也是非常重要的慈善事业。我真心希望很多人与 一起,来从事这个新兴的慈善事业。下面,我会更具体地谈一谈与质量监测有关的数据问题。
    我们说,不管对象是企业还是政府,消费者都是最主要、最好的质量信息来源。但是相较于企业和政府,消费者又是一个最缺乏组织与规则的虚拟群体,你既不会知道谁会突然哪天发布一条哪个产品有问题的信息,也不知道谁会在什么时间在互联网上“游荡”到哪里,然后看到另一个人发布的质量信息。消费者的各种推荐、评论、怀疑、抱怨、投诉和发泄,随机地散布在互联网上可能的任何一个地方,如果一个人想要搜全互联网上对一个企业质量的全部评价,那几乎是一个不可能完成的任务。这不仅从时间投入来说,而且也因为对象的不确定性,就算我们能用搜索引擎进行搜索,但常常我们甚至都不知道该输入哪些关键词才能查全!而事实上,消费者主要通过如论坛、博客、微博等渠道,在互联网上发布质量信息。深度网的监测平台利用网络爬虫技术,能够利用预先设计好规则的网络爬虫,自动地在互联网上收集并存储所有与企业质量相关的信息,不管这些信息是消费者发布的,还是由政府、媒体或其他渠道发布的。这些信息收集工具全天候24小时的不间断工作,能够在最短的时间内为企业和政府收集到互联网上所有与其质量相关的信息。
    大数据的“大”,对于有能力分析、处理和使用的人来说,是个天大的喜讯,但是对于没有能力使用的人来说,绝对是一场巨大的灾难,他们被淹没在数据的海洋里,常常事倍功半。我们在互联网上收集到了海量的企业质量信息,但是,这些信息深层次的意思,从表面上看是无法了解的。因而,我们提出了基于互联网信息的企业质量安全分类模型,通过文本分类技术和语义分析技术,将所收集信息中的共性的、重点的特征呈现给使用者,包括企业目前的风险状态、关键风险纬度、风险地域、热点问题,以及这些特征的变化趋势等,而这一过程也同样是通过计算机信息系统不间断的自动完成的。
    在以往获得数据属性和数量都非常少的时候,要对企业、区域的质量安全状态进行预警是非常困难的,一方面是因为警情指标的警限、警兆指标的警区都难以确定,另一方面是因为警情本身就很难以被发现。我们目前常用的发现质量问题的方法,主要还是依靠抽样检验和消费者投诉,这对于及时发现问题来说,支撑判断的变量太少,并且判断需要建立在既有的判断模式和因果关系之上。一旦有了质量信息的大数据,对质量问题的判断模式就与以前完全不一样了。抽样检验与投诉不再是发现问题的方法,而转变成为验证问题的方法,也就是说数据本身能够揭示出与质量问题高度相关的变量,也许意味着有风险,也许不是,抽样检验可以用来验证这一相关关系是否存在因果关系。这些相关关系,可以出现于企业的风险纬度数据之间,可以出现于风险纬度与经济纬度之间,也可以出现于企业内部与外部某一数据之间,或是企业的历史各个不同时间段的数据之间。这种用“数据说话”的方式,排除了由于人的认知有限而带来的局限性,囊括了更多可能需要预警的风险因素,同时也积累了大量数据,能快速确定预警的临界值,极大地提升企业和政府应对、预防质量“灾害”的硬手段。
    质量本身很枯燥,而我们在网上最后收集到的质量数据结果就可能更枯燥了。好在质量进入到大数据时代,数据的表现也是这个时代的重要特征。在质量监测数据的应用上,我们的专业人员开发了很多生动的可视化工具,这些工具包括质量风险雷达图、区域质量安全地图、企业质量安全趋势图等等,这些图形除了让使用者生动地看到质量安全的状态和演变趋势外,本身也是质量在大数据时代的一些新出现的管理工具和模型。我希望有更多的不同专业的人们,包括那些网上软件技术的开发爱好者们,和我们一起来挖掘网上的质量数据,并且用最生动、最直观的呈现方式让这些数据为普通的消费者服务。我也坚信,质量大数据只有开放才有价值,最好的开放机制,就是只要喜欢和愿意的人,都可以发布自己开发的各种不同类型的质量数据工具。这就是我和我的同事们,今后将不断地把观测和监测的质量数据不断推出,并向社会开放的原因。只要将这些质量数据开放给社会,社会就会让这些质量数据变得更有价值,也会让更多的人受益,让我们全社会的质量变得越来越好,这就是我们的“质量梦”。

凡本网编辑上传的文章内容(注明转载文章除外),均为武汉大学质量发展战略研究院合法拥有版权或有权使用的作品,未经本网授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:武汉大学质量发展战略研究院”。违反上述声明者,本网将追究其相关法律责任。

如需转发本网文章,因作品内容、版权和其它问题需要同我们联系的,请在相关作品刊发之日起30日内进行。

关闭
网站访问总量: 3631897
Baidu
map