首页评论正文

中国大数据实时分析技术革新突破最新动向:实现毫秒级响应

作者:紫金山

来源:华夏时报

发布时间:2019-03-29 19:37:36

摘要:TB级数据毫秒级响应(处理千亿条数据可实现毫秒级响应),这是中国大数据实时分析技术革新突破的最新的优异表现,令国际同行瞩目。

紫金山

TB级数据毫秒级响应(处理千亿条数据可实现毫秒级响应),这是中国大数据实时分析技术革新突破的最新的优异表现,令国际同行瞩目——上周在美国旧金山Moscone中心,Strata Data Conference(全球顶级大数据会议)上,中国厂商展示的全内存分布式数据库RapidsDB v4.0,成为全场亮点。这是一款由中国厂商完全自主研发且拥有自主知识产权的TB级分析型数据库软件产品,其令人震惊的技术特征在于可支持TB级数据毫秒级响应,实现1秒内在3000亿条数据中匹配唯一1行记录,将国际主流数据库(Oracle/IBM DB2)执行效率提升百倍以上,同时,数据与内存空间的占用比为1:1.4,远低于国际主流数据库(Oracle/SAP)1:4的数据与内存空间占用比,可为客户节省60%以上内存采购成本。

业内专家说,1:1.4的内存占比,这是国际领先的内存压缩技术,比其他同类产品少2-3倍的内存消耗,也是优秀的内存数据库执行引擎,执行TPC-H标准测试比spark快8倍以上,具有国际ISO标准的流数据SQL处理引擎,可支持对流关联分析和流数据与历史数据关联分析。其技术应用价值在于,大数据实时分析、交互式查询,支持新一代商业智能软件自助分析、自定义报表快速展示、上钻、下钻、切片等功能快速实现;联邦功能可关联多种数据源形成数据湖,消除数据孤岛;通过标准SQL处理流数据等。

在国际主流的TPCH上进行测试(TPCH是国际上认定的分析性数据库测试的标准)的结果表明,通过在5 台单机 2 路 8 核 256GB 内存服务器组成的集群上进行测试:在同样环境下,对同样生成100G的数据,进行总体数据的查询显示,rapidsDB执行时间为186.3秒,国际上主流的内存数据库greenplum与spark的执行时间分别为3376.09秒和1528.67秒, 测试结果要比spark快8倍,相比其他的产品更具有优势。

据领衔研发这款产品的柏睿数据董事长兼CTO刘睿民披露,目前国际主流数据库产品性能均已进入到TB级分析能力时代,核心技术向高性能、高吞吐、高并发、低延时、按需在线灵活扩展等特性进化,要求能够对大规模(即海量)、上百个维度的多源异构数据进行实时加速分析。而与甲骨文、SAP、微软等国际著名数据库厂商相比,目前中国的数据库产品技术在自主创新基础上的突破和对国际同行的超越,已势不可挡。

据了解,这款产品的研发团队底层基因是一个纯技术团队,对于数据库核心在内的所有组件(执行引擎和存储引擎)及整体架构均是自主设计和自主研发可控:即从数据应用层、解析层、优化层、执行层到存储引擎的五层均是完全自主,在代码编写和数据保护层面都具有完全自主可控权。

刘睿民表示,能够实现国产数据库自主研发离不开我们的核心团队在这个领域的深耕与探索,并积累了大量的技术和服务经验。有资料显示,该技术团队来源于惠普实验室,其核心技术架构师均师从数据库鼻祖图灵奖获得者Jim Gray。刘睿民说,他希望能够带领这个团队走向世界,成为一个响当当的有核心技术、靠技术驱动的企业级数据库服务商。

业内人士说,中国在近年来的全球大数据革命浪潮中涌现了一批从底层数据库、大数据应用、数据可视化等厂商。大数据技术在各行业的应用越来越普遍,但是基于完全自主研发的自主可控产品却寥寥无几,尤其是在底层核心基础软件上,更是屡被欧美国家卡脖子,核心技术一直无法取得大的突破。而解决关键核心技术卡脖子问题无捷径可走,只有修炼内功,实现核心技术的自主研发,用实力完成赶超。

柏睿数据方面表示,作为一家成长在大数据和人工智能时代的中国高科技公司,其基于完全自主研发的安全可靠全内存分布式数据库、流数据库、数据库内人工智能库等核心产品在中国经受住银行业、工业、运输业、零售业和电信等领域海量实时数据的分析考验。尤其在金融领域中,针对100TB级的数据量全内存分布式数据库RapidsDB v4.0可以实现秒级响应,这样的数据规模,北美的企业是不可企及的,而对于OLTP企业更是难以望其项背,同样对于专攻于OLAP on Hadoop的企业来说,也是不敢挑战的。而柏睿数据凭借扎实的研发与坚定的理想信念,致力于为政府和企业的数字化转型及国民产业升级,提供大数据实时分析技术、产品及整体解决方案,深度参与数字中国建设。

有关技术专家认为,本次会上,柏睿数据带来的全内存分布式数据库RapidsDB v4.0,作为中国完全自主研发且拥有自主知识产权、全球领先的一款TB级分析型数据库软件产品,其所具有的高性能、高吞吐、高并发、低延时、按需在线灵活扩展等特性,能够对大规模、上百个维度的多源异构数据进行实时加速分析,面向政府和企业都有十分广阔的应用空间,而且伴随大数据时代不断演进,数据产生的速度越来越快、数据类型越来越复杂,其领先性和重要性会愈加凸显。

责任编辑:徐芸茜 主编:商灏


查看更多华夏时报文章,参与华夏时报微信互动(微信搜索「华夏时报」或「chinatimes」)