热门标签

首页产业正文

商业落地成AI企业集体发力点 追一科技发布业内首个大规模中文数据集

作者:卢晓

来源:华夏时报

发布时间:2019-10-17 14:27:52

摘要:“我们做企业服务的时候发现,客户这边经常是有一个钉子,但不知道用什么锤子来砸。我们这些搞AI的公司是拿着一个锤子,却不知道去哪里找钉子。”10月12日,AI创业公司追一科技CTO刘云峰在“首届中文NL2SQL挑战赛”期间接受《华夏时报》等媒体记者采访时如是说道。

商业落地成AI企业集体发力点 追一科技发布业内首个大规模中文数据集

(AI创业公司追一科技CTO刘云峰)

华夏时报(www.chinatimes.net.cn)记者 卢晓 北京报道

“我们做企业服务的时候发现,客户这边经常是有一个钉子,但不知道用什么锤子来砸。我们这些搞AI的公司是拿着一个锤子,却不知道去哪里找钉子。”10月12日,AI创业公司追一科技CTO刘云峰在“首届中文NL2SQL挑战赛”期间接受《华夏时报》等媒体记者采访时如是说道。据《华夏时报》记者了解,NL2SQL(Natural Language to SQL)是自然语言处理(NLP)的一个分支,关注数据库的交互创新。

商业落地已经成为AI公司的集体发力重点。刘云峰认为,通过比赛可以很好地把AI的“钉子”和“锤子”匹配在一起,为技术找到落地的场景。

发布中文数据集

这次比赛期间,追一科技发布了NL2SQL业内首个大规模的中文数据集,包括4870张表格数据、近50000条标注数据以及相应的SQL语句。公开资料显示,该领域此前在国外已经由SalesForce、耶鲁大学等发布了WikiSQL和Spider数据集,但在国内市场目前还处于起步阶段。

刘云峰认为,公开数据集的出现,会大力推进NL2SQL行业的技术发展。“因为数据集就相当于一个公开的尺子,大家都愿意把自己最好的方法拿这个尺子度量一下,不会踩着不可靠的结论再去做。”据记者了解,曾担任谷歌首席AI科学家的李飞飞此前在在计算机视觉领域曾做出ImageNet数据集,后者被认为对AI行业影响重大。

刘云峰告诉《华夏时报》等媒体记者,在今年年初比赛之前,研究中文NL2SQL的只有微软和追一科技两家。但此次比赛吸引了1400多个团队参加,这个方向开始被关注。此外,据记者了解,比赛初期各参赛队伍的准确率尚为60%多,复赛结束时选手的最高成绩已达到92%。

有业内人士认为,NL2SQL在银行、保险、证券、电商等数据富矿领域有较大应用潜力,可以大幅降低数据库访问和使用门槛。“很多企业原始的数据和原始的知识就是以数据库形式存储的,相对知识图谱,数据库类的应用会更多。”刘云峰也告诉记者。

据记者了解,追一科技此次发布的数据集覆盖了金融、新零售、地产等十多个领域,其中金融行业的表格占一半左右。但他同时强调,在数据集上取得比较好的成绩说明已经具备一定泛化能力,“但最终落地还要基于它所在的垂直行业再做进一步调优。”

公开资料显示,主攻自然语言处理的追一科技于2016年创立,已经历经四次融资,合计获得七千多万美元融资。最近一次融资记录在今年4月,追一科技当时对外宣布其已完成C轮4100万美元融资。

刘云峰还表示,追一科技目前有四百多人的规模,在南京、上海以及新加坡等地都有自己的研发团队。其中新加坡的团队专门做NLP的国际化布局。他透露,国际化追一科技今年主要是打样,先探索一下东南亚市场,再探索欧洲市场。

NLP技术大年

数据集更大的作用是被认为会促进AI技术的产业化落地。事实上,商业落地已经成为AI行业面临的集体课题。

而相对于消费者市场,TO B成为AI落地的更大市场。刘云峰告诉《华夏时报》等媒体记者,消费者市场如果遇到有爆点,会出现指数极的增长。但是消费者市场的红利已经在消失,包括阿里、腾讯都在转做行业互联网。

“未来头部的AI公司一定是全栈的AI公司。”刘云峰说。他告诉记者,现在AI技术真正在工业落地时经常会同时处理多种信号,视觉和NLP等领域集合得越来越多,多模态融合成为趋势。

公开资料显示,计算机视觉领域的依图也在涉足智能语音、NLP相关领域。主打智能语音的科大讯飞也在做计算机视觉相关工作。记者了解到,追一科技也有自己的视觉和语音团队。其现在做的交互型数字人,实时过程中覆盖了语音、自然语言理解以及视觉三大AI领域的技术。

事实上,在上述AI三大领域中,计算机视觉领域发展的最为迅速。不仅目前AI行业的头部公司主要都出自计算机视觉赛道,计算机视觉赛道AI公司的估值也普遍高于其它领域。

刘云峰认为,计算机视觉赛道发展最快,源于其最早去成熟。“特别是公开数据集的出现大力地推进了视觉技术的成熟,并且能够满足我们工业上的需求,所以它的推广速度相对快一些。”他表示,从校招也可以看出来,视觉方面的人才是最多的,这方面的实验室也是最多。NLP和语音这两个方向完全是供不应求,许多都是从视觉领域转行进入。“这个方向当前还没有一家能够做到绝对霸主,AI的技术迭代非常快,后来者有很多机会冲击技术顶峰。”

刘云峰告诉记者,NLP很多时候是和歧义做斗争,这两年有很多自然语言基础能力的建设把这个问题解决得相对不错,我们可以在这个基础上面做更多更复杂的任务。“从技术成熟度来看,今年肯定是NLP的一个大年,落地到产品应该还有一两年的延后,后面会有一个比较大的爆发。”

责任编辑:黄兴利 主编:寒丰


查看更多华夏时报文章,参与华夏时报微信互动(微信搜索「华夏时报」或「chinatimes」)