AI的看图说话准确率比人类还高！阿里AI再摘一冠-传智汇

AI的看图说话准确率比人类还高！阿里AI再摘一冠

来源：观察者

近日，在第二届视觉对话竞赛Visual Dialogue Challenge中，阿里AI击败了微软、首尔大学等十支参赛队伍，获得冠军。

点击查看大图

阿里AI在视觉对话竞赛中得冠

视觉对话竞赛由美国佐治亚理工大学、Facebook人工智能实验室（FAIR）等机构联合全球视觉技术领域顶级学术会议CVPR发起，是目前视觉对话领域最权威的竞赛之一。

该竞赛要求参赛的AI在看完近万张图片后，回答出人类对于任一图片任一内容的提问。竞赛结果显示，阿里AI以74.57%的准确率获得冠军，将上一届比赛的纪录提高了16.82%。在相同的数据集中，人类的准确率仅为64.27%。

传统的视觉AI主要针对目标的检测和识别，例如识别出图片是否是一只猫，但对复杂场景中目标之间的逻辑关系理解、推理能力较弱，无法回答“这只猫旁边的男生穿了什么颜色的衣服”等复杂问题，也难以将图片信息转化为人类理解的语言输出。

阿里AI的突破在于提出了“递归探索对话模型”，综合集成了图像识别、关系推理与自然语言理解三大能力，它通过高效利用标注信息学习出模仿人类认知复杂场景的思维方式，能够有效识别图片里的实体以及它们之间的关系，推理出图片所描述的事件内容，并通过对上下文进行有效建模，理解人类提出的问题及真实意图，给出自然准确的回复。

点击查看大图

视觉对话中，AI可以从容应对人类提问，左为AI，右为人类

视觉对话是近年来快速崛起的AI研究方向，目的在于教会机器用自然语言与人类讨论视觉内容。如果说视觉识别技术，让机器具备了视觉能力；那么视觉对话技术，则使得机器拥有了对真实视觉世界的理解与推断能力，意味着AI的认知能力将迈上新的台阶。

点击查看大图

视觉对话技术有望人类提高地震救援效率

据了解，这项技术未来将被应用在人机交互诸多场景：地震后在废墟中寻找幸存者的救援机器人，能够更加及时、高效地综合指挥指令和场景信息作出行动；视障人士可以通过提问阿里AI，理解网络照片中的内容，了解自身所处的周围环境；无人驾驶车辆对影响因子的意图理解会更为准确，乘客的乘坐体验更好。

【免责声明】

凡本站注明信息来源：“传智汇”的文章均为原创内容，归本站所有，未经允许，不得转载。如需转载，请与传智汇联系，并注明出处，并带上原文链接，违者将追究法律责任。如本站转载稿涉及版权等问题，请作者在15天内速来电或来函联系。

微信 “扫一扫”，您也可以搜索“传智汇”，添加公众号。了解更多活动资讯，行业信息。

上一篇：华为去年研发投资全球第五：5G研发投入超20亿美元下一篇：Qualcomm携手中兴通讯基于现网环境拓展5G

快讯更多

专家：中国5G具备竞争优势欢迎国外企业参与中国5G

中新社北京6月3日电 (记者刘育英)3日，官方消息称，中国将于近期发放5G牌照。中国专家表示，中国5G具备竞争优势，中国一直秉持开放、包容、合作、共赢的理念，与全球产业界携手推进5G发展。

2019年06月04日 02:00:03
分享到
工业和信息化部将于近期发放5G商用牌照

工信部消息称，在技术试验阶段，诺基亚、爱立信、高通、英特尔等多家国外企业已深度参与，在各方共同努力下，中国5G已经具备商用基础。近期将发放5G商用牌照，中国将正式进入5G商用元年。

2019年06月04日 02:00:02
分享到
拍拍将与爱回收合并，京东成后者最大战略股东

记者获悉，京东旗下二手商品交易平台“拍拍”将与爱回收战略合并，合并后，京东集团将成为爱回收最大的战略股东，京东拍拍二手总经理王永良将出任爱回收合伙人兼联席总裁职位。

2019年06月04日 02:00:02
分享到

AI的看图说话准确率比人类还高！阿里AI再摘一冠

联系我们

关注传智汇公众号