| 首页  |  资讯  |  评测  |  活动  |  学院  |  专题  |  杂志  |  产服  |  
您现在的位置:硅谷网> 资讯> 智能>

阿里达摩院在机器视觉问答VQA榜单中首次超越人类

2021-08-12 17:35 作者:Leo 来源:硅谷网综合 关注: 编辑:GuiGu 【搜索试试

8月12日,记者注意到,国际权威机器视觉问答榜单VQA Leaderboard出现关键突破:阿里巴巴达摩院以81.26%的准确率创造了新纪录,让AI在“读图会意”上首次超越人类基准。继2015年、2018年AI分别在视觉识别及文本理解领域超越人类分数后,人工智能在多模态技术领域也迎来一大进展。

(达摩院AliceMind在VQA Leaderboard上创造首次超越人类的纪录)

“诗是无形画,画是有形诗。”宋代诗人张舜民曾描绘语言与视觉的相通之处。“读图会意”,即通过视觉理解信息,是人类的一项基础能力,但对AI来说却是要求极高的认知任务。解决该挑战,对研发通用人工智能有重要意义。近10年来,AI在下棋、视觉、文本理解等单模态技能上突飞猛进,但在涉及视觉-文本跨模态理解的高阶认知任务上,AI过去始终未达到人类水平。

为攻克这一难题而设立的挑战赛VQA Challenge,自2015年起先后于全球计算机视觉顶会ICCV及CVPR举办,吸引了包括微软、Facebook、斯坦福大学、阿里巴巴、百度等众多顶尖机构踊跃参与,并形成了国际上规模最大、认可度最高的VQA(Visual Question Answering)数据集,其包含超20万张真实照片、110万道考题。

VQA是AI领域难度最高的挑战之一。在测试中,AI需根据给定图片及自然语言问题生成正确的自然语言回答。这意味着单个AI模型需融合复杂的计算机视觉及自然语言技术:首先对所有图像信息进行扫描,再结合对文本问题的理解,利用多模态技术学习图文的关联性、精准定位相关图像信息,最后根据常识及推理回答问题。

(VQA技术自2015年的进展)

今年6月,阿里达摩院在VQA 2021 Challenge的55支提交队伍中夺冠,成绩领先第二名约1个百分点、去年冠军3.4个百分点。两个月后,达摩院再次以81.26%的准确率创造VQA Leaderboard全球纪录,首次超越人类基准线80.83%。

VQA的核心难点在于对多模态信息进行联合推理认知,即在统一模型里做不同模态的语义映射和对齐。据了解,达摩院NLP及视觉团队对AI视觉-文本推理体系进行了系统性的设计,融合了大量算法创新,包括多样性的视觉特征表示、多模态预训练模型、自适应的跨模态语义融合和对齐技术、知识驱动的多技能AI集成等,让AI“读图会意”水平上了一个新台阶。

VQA技术拥有广阔的应用场景,可用于图文阅读、跨模态搜索、盲人视觉问答、医疗问诊、智能驾驶等领域,或将变革人机交互方式。

报道显示,这不是阿里达摩院第一次在AI关键领域超越人类基准。2018年,达摩院曾在斯坦福SQuAD挑战赛中历史性地让机器阅读理解首次超越人类,引发海外媒体关注。今年以来,达摩院在AI底层技术领域动作频频,先后发布了中国科技公司中首个超大规模多模态预训练模型M6及首个超大规模中文语言模型PLUG,并开源了历经3年打造的深度语言模型体系 AliceMind(https://github.com/alibaba/AliceMind),其曾登顶 GLUE等六大国际权威NLP榜单。

(VQA考题列举,根据有礼服装饰的小熊玩具照片及问题“这些玩具用来做什么的?”达摩院AliceMind成功推理出一个可能的答案“婚礼”)

【对“阿里达摩院在机器视觉问答VQA榜单中首次超越人类”发布评论】

版权及免责声明:
① 本网站部分投稿来源于“网友”,涉及投资、理财、消费等内容,请亲们反复甄别,切勿轻信。本网站部分由赞助商提供的内容属于【广告】性质,仅供阅读,不构成具体实施建议,请谨慎对待。据此操作,风险自担。
② 内容来源注明“硅谷网”及其相关称谓的文字、图片和音视频,版权均属本网站所有,任何媒体、网站或个人需经本网站许可方可复制或转载,并在使用时必须注明来源【硅谷网】或对应来源,违者本网站将依法追究责任。
③ 注明来源为各大报纸、杂志、网站及其他媒体的文章,文章原作者享有著作权,本网站转载其他媒体稿件是为传播更多的信息,并不代表赞同其观点和对其真实性负责,本网站不承担此类稿件侵权行为的连带责任。
④ 本网站不对非自身发布内容的真实性、合法性、准确性作担保。若硅谷网因为自身和转载内容,涉及到侵权、违法等问题,请有关单位或个人速与本网站取得联系(联系电话:01057255600),我们将第一时间核实处理。
广告
相关
·鸿雁联合阿里云IoT发布“智音A1分布式语音面板”
头条
镜子加个AI转手就能卖万元?FITURE智能健身镜被质疑! 镜子加个AI转手就能卖万元?FITURE智能健身镜
一面镜子,加个AI,摇身一变成为了智能健身镜,售价也飙升至近万元。它,到底是不是智……
·镜子加个AI转手就能卖万元?FITURE智能健身镜
·有强迫症?人工智能AI用1年开发出治疗强迫症
·人工智能测温:日供百套AI设备,单台报价过万
·英媒认为人工智能力量将成为抗击新疫情最大希
·AI芯片需要破解落地难题 才能加速算力的迭代
图文
阿里达摩院在机器视觉问答VQA榜单中首次超越人类
阿里达摩院在机器视觉问答VQA榜单中首次超
小米发布CyberDog仿生四足机器人 工程探索版售价9999元
小米发布CyberDog仿生四足机器人 工程探索
ZAO隐私风险 你的脸已经不仅仅是你的脸了
ZAO隐私风险 你的脸已经不仅仅是你的脸了
九号机器人,这次想用AI运载机器人送快递送外卖
九号机器人,这次想用AI运载机器人送快递送
热点
·AI又出了偏门应用:用算法“脱掉”女性衣服
·ZAO隐私风险 你的脸已经不仅仅是你的脸了
·美的AIR空间站|你用过能管理空气的空调吗?
·新橙派果汁机器人引爆中国独角兽孵化合作大会
·民宿房东的辛酸史 用安伴门锁实现了合规运营
旧闻
·数创未来,出彩中原 | 软通智慧亮相2019数字
·国际虚拟现实(中国南京)产业创新发展大会即
·覆盖你的需求空间:热门高性能智慧分布式路由
·AI赋能教育,未来科学·教育机器人沙龙成功举
·软通智慧携手华为 构建共赢的鲲鹏计算产业生
广告
硅谷精选
阿里达摩院在机器视觉问答VQA榜单中首次超越人类
阿里达摩院在机器视觉问答VQA榜单中首次超越人类
小米发布CyberDog仿生四足机器人 工程探索版售价9999元
小米发布CyberDog仿生四足机器人 工程探索版售价9999
镜子加个AI转手就能卖万元?FITURE智能健身镜被质疑!
镜子加个AI转手就能卖万元?FITURE智能健身镜被质疑!
用AI找星星 腾讯联合国家天文台启动“探星计划”
用AI找星星 腾讯联合国家天文台启动“探星计划”
搭载人工智能物体识别技术 京瓷开发图像识别型智能无人收银系统
搭载人工智能物体识别技术 京瓷开发图像识别型智能无
智慧用电成必然趋势,嘉柒智能助力企业用电升级
智慧用电成必然趋势,嘉柒智能助力企业用电升级
关于我们·About | 联系我们·contact | 加入我们·Join | 关注我们·Invest | Site Map | Tags | RSS Map
电脑版·PC版 移动版·MD版 网站热线:(+86)010-57255600
Copyright © 2007-2021 硅谷网. 版权所有. All Rights Reserved. <备案号:京ICP备12003855号-2>