首页金融正文

创新工场、搜狗、美图、美团点评开放数据集 让AI科研项目不受数据缺乏限制

作者:冯樱子

来源:华夏时报

发布时间:2018-08-30 11:41:09

摘要:8月29日,由创新工场、搜狗、美团点评、美图公司联合主办的“2018 AI Challenger 全球AI挑战赛”正式开赛。同时,主办方今年新增的10余个数据集也同步上线。

创新工场、搜狗、美图、美团点评开放数据集 让AI科研项目不受数据缺乏限制

华夏时报(www.chinatimes.net.cn)记者 冯樱子 北京报道

8月29日,由创新工场、搜狗、美团点评、美图公司联合主办的“2018 AI Challenger 全球AI挑战赛”正式开赛。同时,主办方今年新增的10余个数据集也同步上线。

创新工场董事长兼CEO李开复表示,从2018年开始,人工智能真的开始落地了,每一个AI从业者不但要考虑怎么做好技术,还要考虑真实的应用机会。

而在人工智能技术发展和落地应用探索过程中,数据是燃料,开放数据集,才会更好地推动AI产业的进步。李开复介绍三十年前自己博士论文做语音识别时,存储了所有自己能储存的数据,总共才4000句,别需要花费10万美元。他希望如今每一个科研人员不要因为数据不够而导致项目结果不理想,让他们即使不在阿里、腾讯工作,也可以有足够的数据可以使用。

比赛的主办方之一,搜狗的CEO王小川也提到,近几年,AI发展非常迅速,从智能家居到无人驾驶,从医疗行业到教育行业,AI已经开始进入每个人的工作生活当中。而数据是AI发展的核心,搜狗作为一家搜索引擎公司,天生就对大数据感兴趣。今年,搜狗公开30万问答语料数据,用于观点型问题阅读理解竞赛中。机器阅读理解是让机器读懂人类语言、和人类更好交流互动的重要领域。此技术可广泛应用于智能搜索、智能客服、智能音箱、语音控制等场景,用AI实现基于文字、语音的人机智能互动。

此外,在翻译方面,搜狗在2017年数据集的基础上,公开数据总量达到1300万句对;且其中具有上下文情景的中英双语数据达到300万句对,为机器翻译的研究提供了更多探索空间。目前,机器翻译正越来越成为人们跨越语言障碍的重要工具,应用于各种领域。

美团点评CTO罗道锋认为,AI已经进入到了一个实用的阶段,但还处于开花的早期,处于弱人工智能阶段,需要有长期的耐心。美团点评具有大量评论数据,并基于外卖业务,美团点评具有大规模的AI实时调度系统。因此,美团点评为本次的AI challenge的细密度情感分析赛道提供支撑,提供数据集包含15万条餐饮用户评论、6大类20个细粒度要素标签。自然语言情感分析是机器理解人类表达和意图的重要领域。此技术可广泛应用于零售、电商、餐饮、服务等用户评价场景,用AI对用户反馈进行智能分析,监测用户喜好、满意度等。

同时,美团点评还提供了无人驾驶数据。大赛也采用了UC Berkeley DeepDrive(BDD)2018年最新发布的BDD 100K数据集,其中包括原始图片1.2亿张、标注图片10万张,涵盖多样天气和昼夜光照条件。

美图公司创始人兼CEO吴欣鸿也表示,美团在拍摄过程中,常常需要理解使用者使用摄像头拍摄外部世界时的意图,基于这一优势,美图为大赛提供了大量短视频实时分类数据。

该数据集共包含20万条短视频,涵盖舞蹈、健身、唱歌等63类流行元素;并采用多标签分类体系,标签信息包含视频主体、场景、动作等多个维度,标注信息几乎包含视频中展现的所有元素。近几年发展极快的短视频行业具有明显的娱乐性和流行性,深受人们喜爱;基于短视频机器分类的技术还可以广泛用于视频内容分析、编辑与生产,监控、安防等领域。

“AI Challenger 全球AI挑战赛”是面向全球人工智能人才的开放数据集和编程竞赛平台,致力于满足AI人才成长对高质量丰富数据集的需求,推动AI在科研与商业领域结合来解决真实世界的问题。

在2017年的首届大赛中,AI Challenger发布了从百万到千万量级的4个数据集、6个兼具学术前沿性和产业应用价值的竞赛。在今年的AI Challenger大赛里,主办方进一步扩大数据集规模,新增10余个数据集,发起兼具科研、产业应用、社会意义的竞赛。

总结来说,5个主赛道的数据集包括:业界最大规模观点型问题阅读理解数据集、业界最大规模细粒度用户评论情感分析数据集、业界最大规模英中文本机器翻译、业内首个多标签短视频分类数据集、以及世界庞大、最复杂的自动驾驶数据集。这5个主赛道的竞赛分别是:

除了上述的5个主赛道之外,AI Challenger 2018还开放5个实验赛道竞赛和相应的数据集,包括基于北京气象局3年气象数据的天气预报竞赛,世界上首个农作物病害检测竞赛和数据集,国内首个眼底病变医学图像检测竞赛和数据集,以3D虚拟图像训练机器“认识”真实世界物品的竞赛和数据集,让机器借助辅助知识学习从未见过的新概念的首个国际性零样本学习竞赛和数据集。

责任编辑:吴丽华 主编:冉学东

查看更多华夏时报文章,参与华夏时报微信互动(微信搜索「华夏时报」或「chinatimes」)