首页评论正文

流数据库:甘肃舆情监测平台成功运行的技术奥秘

作者:米方

来源:华夏时报

发布时间:2017-10-25 13:14:46

摘要:10月20日在兰州举行的甘肃省社情民意互联网大数据分析平台研讨会上,该省统计局副局长蒋致平表示,平台自上线以来,对涉及互联网甘肃社情民意方面数据进行全面抓取,为甘肃全省的网络信息进行实时深度搜索和挖掘,对突发公共事件的媒体报道和公众舆论信息进行实时的汇聚和统计分析。

流数据库:甘肃舆情监测平台成功运行的技术奥秘

华夏时报(www.chinatimes.net.cn)记者 米方 兰州报道

10月20日在兰州举行的甘肃省社情民意互联网大数据分析平台研讨会上,该省统计局副局长蒋致平表示,平台自上线以来,对涉及互联网甘肃社情民意方面数据进行全面抓取,为甘肃全省的网络信息进行实时深度搜索和挖掘,对突发公共事件的媒体报道和公众舆论信息进行实时的汇聚和统计分析,并自动生成社情民意监测每日简报、周报、月报、专报等多种汇报模式,及时呈现给相关政府决策部门。

出席会议的国家统计局民调中心副主任王海峰指出,大数据在民调中的应用正向着智能化时代发展。并高度评价该省民调中心自主建设的“社情民意互联网大数据分析平台”将甘肃省内的社会发展、民情反馈、民意动向等相关数据进行实时动态收集,探索对重点事件、突发事件进行跟踪和预警,为政府贴近民生工作提供有力的民情民意数据支持。

原工信部软件司长陈伟也在会上发言表示,甘肃省统计局民调中心建设的“互联网舆情分析平台”前瞻性地采用国际标准流数据库技术,有效支撑政务业务协同和数据共享汇聚;对企业投资、经济运行、政务管理等提供决策参考,有力推进了政府部门简政放权、放管结合、优化服务。

甘肃省工信委王海峰副主任说,本省统计局自主研发的“社情民意互联网大数据局分析平台”践行了建设创新性国家战略,同时贴近民生,服务民意,为政府科学决策提供了真实有力和全面的民意参考,是一个技术高、价值大、实用性强,非常有意义的大数据人工智能实用型平台。

研讨会上,来自贵州省民调中心的专家分享了该省“五位一体”的大数据系统;重庆市民调中心专家则提出,应结合大数据的优势和民调工作的特点使舆情汇报变得主动;河北、广西、上海等地民调中心的专家就如何抓取数据,确保数据的可靠性、精确性等技术问题在会上进行了交流和探讨。

业内人士认为,由于流数据库技术乃是30年来中国在核心软件领域首度打破国际天花板,登上话语权高峰的技术,甘肃省统计局的这套系统也就因此有着引领世界该项技术应用前沿的重要特征。但从传统人工记载到数据智能识别,甘肃省社情民意互联网大数据分析平台究竟怎样具备了先进技术应用优势?《华夏时报》记者特别采访了原工信部信息软件司司长陈伟、柏睿数据公司副总裁刘杨国二位专家。

《华夏时报》:如何评价甘肃省社情民意舆情监测平台成功运行的技术因素?

陈伟:大数据成为信息化主旋律,数据治理恰好成了当前信息化推广应用的重点、难点和关键点。数据治理能力的地位也凸显出来,它将成为治国理政能力的重要组成部分。而拥有实时、海量、动态,高并发的数据处理技术体系,是评判数据公司的标准,柏睿数据公司对数据库技术的了解、掌握、研发、突破,确确实实在当今全球数据库技术领域独树一帜。不仅能够代表中国在国际上一举打败数据领域寡头企业甲骨文、SAP夺得国际标准话语权,而且在性能上也远超甲骨文、SAP。

《华夏时报》:为什么社情民意舆情监测能够迅速成功运用最先进的数据库技术?

刘杨国:互联网和大数据时代,用大数据平台分析社情民意的数据,有两大优势:1实时响应。我们可以让省委省政府的需求实时获得响应和回复。2.数据抓取、分析和预警全部自动化。这极大的缩短报高产出时间,减少人力投入,现在我们的周报月报都是自动生成的,日报每天自动生成一份,发给指定的人员。人工智能的使用让整个平台更加智能化,抓取的维度更加精准化。

《华夏时报》:所以在大数据时代需要更专业的解决方案,但什么是更专业的解决方案?

刘杨国:需要具备四个特性:1.及时性。在舆情发生一小时内就对数据进行预警。2.完整性。对于微博、微信公众号、各大论坛、APP、新闻、贴吧和各种各样的论坛,抓取所有的可见媒体才能保证不遗漏数据。3.针对性。对于不同的舆情需要采取不同的方案,并对它进行分析处理反应,及时了解普通民众对它的观众点是什么?针对普通民众的关注点对它进行应对措施。4.可追溯性。找寻新闻的来源是什么,通过谁来传播的,及时纠正不良新闻资讯。

《华夏时报》:该方案技术创新点在哪?

刘杨国:该系统中关键有七大技术创新点:

一、运用多种人工智能技术;二、人工智能进行全网的弹性数据抓取; 三、根据客户自由指定的信息提取方式,把所有的非结构化的数据变成我们指定的结构化设置。比如我们提取用户名、阅读数、粉丝数、评论内容等;四、设立模拟系统,自动模拟我们的网站的登录,鼠标点击、输入验证码,模拟手机登录游览器;五、在APP大量盛行的时代,我们现在有一个APP破解内容,可以有效地抓取APP移动的数据。我们有专业的四层逻辑语义分析能力;六、应用的创新技术,利用物理层、应用层和逻辑层三重安全保障。例如物理层设有防火墙和服务器的机制,包括应用层的网络访问限制,还有逻辑层的多重备份,包括镜像和副本来确保整个数据的安全可靠;七、大数据可视化的应用。 柏睿数据是一家专注于大数据的实时分析处理的大数据产品和服务、整体解决方案的提供商,是流数据库国际标准制定者,具有完全拥有自主知识产权的核心技术,可以进行全内存、高并发、实时保证数据的抓取和存储达到多重备份,并且实时调用分析,确保抓取更具全面性和及时性。

陈伟:国家统计局王海峰副主任在会上用“震撼”两个字来形容甘肃省社情民意互联网大数据分析平台,我认为是比较恰当地表达了他的真实感受和客观评价。工信部的数据:我国互联网网民数达到7.2亿,按我国人口总数可以看出这个比例。移动电话用户数达到13.8亿,其中4G用户一定是宽带和智能化的达到了9.3亿,这个数据一出来就可以看到,为什么互联网大数据分析管用?因为绝大多数的社会成员都已经应用网络来进行自己的许多活动,网络已经能够比较准确地、真实地、全面地反映人们的现实生活状态。

这次来甘肃看到,该省的互联网舆情分析平台,实际是柏睿数据公司开发的流数据库技术的一个典型应用。甘肃省统计局以其独到的视角,超前的决策,看重这个拥有自主核心技术的创新型发展中公司的技术,做出了这样一个大平台,确实独具慧眼。从技术维度和创新应用的维度可以看到,该项技术是原创的、先进的。它先进在什么地方?全内存,这是它的第一个概念。oracle也试图做出这样的技术,但他们恐怕需要等到10年以后了,因为他们技术的DNA不对,做的是结构化的处理。 海量就不用说了,oracle处理量单一数据库1P,再往上走就难了,这也是DNA决定的。实时性和高并发方面,柏睿数据的并发能够为深交所做300个并发,oracle只能做30个并发,而且是最近半年从20增长到30,一个节点叫一个并发,节点背后是每秒60万次点击的交易,所以可以算到它的量,所以叫做全内存海量及时高并发,是这个数据库技术的最重要特征,因此它能够把数据的处理从批处理变成流处理方式,也就是随来随到随处理,就像水流一样的处理方式,这是它实现实时性的一个关键技术点。

《华夏时报》: 怎样看该项技术应用最新发展?

刘杨国:首先,甘肃社情民意互联网分析平台将在工程第一期针对民声、民调分析的基础上,加强平台升级,着力针对旅游、环保、教育、医疗卫生、交通、住房、扶贫、食品安全8个行业进行分类抓取,形成专报;其次,统计甘肃省内所有上市企业,分析其对本省经济发展影响;第三,针对八大行业建设人才专家储备库;第四,移动端展示,建设专用微信公众号;第五,促使本平台更加精准化、专业化的为甘肃省委、省政府提供强有力的决策支持。同时柏睿数据最新技术库内人工智能技术也将加入到应用中去。

编辑:吴小曼;主编:商灏

查看更多华夏时报文章,参与华夏时报微信互动(微信搜索「华夏时报」或「chinatimes」)