| 首页  |  资讯  |  评测  |  活动  |  学院  |  专题  |  杂志  |  产服  |  
您现在的位置:硅谷网> 资讯> 智能>

NLP领域再创佳绩!阿里云机器学习平台 PAI 多篇论文入选 ACL 2023

2023-07-10 15:38 作者:Kathy 来源:硅谷网综合 关注: 编辑:GuiGu 【搜索试试

近期,阿里云机器学习平台PAI主导的多篇论文在ACL 2023 Industry Track上入选。ACL是人工智能自然语言处理领域的顶级国际会议,聚焦于自然语言处理技术在各个应用场景的学术研究。该会议曾推动了预训练语言模型、文本挖掘、对话系统、机器翻译等自然语言处理领域的核心创新,在学术和工业界都有巨大的影响力。

论文成果是机器学习平台PAI联合阿里巴巴国际贸易事业部、阿里云与华南理工大学联合培养项目、复旦大学肖仰华教授团队等共同研发,此次入选意味着阿里云机器学习平台PAI自研的自然语言处理和多模态算法,以及算法框架能力达到了全球业界先进水平,获得了国际学者的认可,展现了中国人工智能技术创新在国际上的竞争力。

论文简述

基于电商多模态概念知识图谱增强的电商场景图文模型FashionKLIP

图文检索作为一项流行的跨模态任务,在广泛的工业应用中具有很强的实用价值。视觉-语言预训练(VLP)模型的蓬勃发展大大提高了跨不同模态数据的表示学习,从而带来了显著的性能提升。然而,电商领域的数据具有其自身的特性:1)通用场景的文本大多包含完整的句子结构描述,而电商场景中的描述或查询通常由多个形容性短语组成,描述了产品的材质或风格等细节信息。2)通用领域的图像通常具有复杂的背景;相比之下,商品图像主要包含一个大的商品图,没有很多背景物体。基于此论文提出了一种电商知识增强的VLP模型FashionKLIP。一共包含两部分内容:数据驱动的构建策略,从大规模电商图文语料库中构建多模态电商概念知识图谱(FashionMMKG);和训练融入知识的训练策略,学习两种模态的图像-文本对的表示对齐,并通过将文本表示与FashionMMKG中时尚概念的视觉原型表示进行匹配,进一步得到概念对齐。

为了验证FashionKLIP方法的实用性,我们将其应用于阿里巴巴国际部的商品搜索平台,在图像-商品和文本-商品两个检索子任务上进行了零样本场景下的验证,并将其与基线方法CLIP比较,实验结果进一步证明了FashionKLIP的实用价值及高效性。

面向轻量化文图检索的Dual-Encoder模型蒸馏算法ConaCLIP

文本-图像检索(Text-Image Retrieval)的目的是在给出一个特定的文本查询时,从一个大型的图像集合中检索出一个最相关的图像列表。随着信息交互和社交场景的快速发展,该任务一直被认为是跨模态应用的一个关键组成部分,并被各种现实世界的场景所需求,如电子商业平台,网站等。现有的相关模型如CLIP在计算资源有限的边缘设备或动态索引场景如私人照片/消息集合上仍然不太实用。为了解决这个问题,我们的目标是从大规模的预训练双流编码器模型出发,专注于小模型预训练阶段的蒸馏过程,以获得一系列更小、更快、更有效的相应的轻量化模型。与现有的工作不同,我们的方法引入了全连接知识交互图(fully-Connected knowledge interaction graph)用于预训练阶段的蒸馏。除了模态内教师-学生交互学习之外,我们的方法还包括模态内学生-学生交互学习、模态间教师-学生交互学习和模态间学生-学生交互学习,如下图所示。

这种为学生网络建立的全连接图可以看做是多视角和多任务的学习方案的集成,以此可以加强预训练模型所需要的稳健性和有效性。同时我们建议,每种类型的学习过程都应该详细地测试各种不同监督策略的效果。我们将所提出的技术应用于电子商务平台的端到端跨模态检索场景,结果展示我们在基本保证模型性能的同时显著的降低了模型的存储空间并增加了模型的计算效率。

具有高效推理速度的中文领域文图生成扩散模型和工具链

Text-to-Image Synthesis(TIS)是指根据文本输入生成图像的技术,给定一段文本指令,使用计算机程序生成符合文本内容描述的图像。然而,由于预训练语言模型缺乏特定领域的实体知识且受限于扩散模型的推理速度,目前开源社区的流行文图生成模型难以支持特定工业领域的应用。主要问题在于,基于扩散的方法需要使用预训练文本编码器对输入文本进行编码,然后作为扩散模型的UNet模型的条件输入。但是目前使用网上收集的文本图像对预训练的文本编码器模型缺乏特定实体概念的理解能力,难以捕获特定实体知识,这对于生成逼真的实体对象图片至关重要。同时,扩散模型的推理速度和计算成本也是需要考虑的重要因素,而迭代逆扩散去噪过程的繁琐计算一直是扩散模型推理速度的瓶颈。我们提出的新框架用于训练和部署文图生成扩散模型,模型架构如下图所示。为了提升对特定实体的理解能力,我们在CLIP的文本编码器中注入了丰富的实体知识,使用知识图谱进行知识增强。与开源Stable Diffusion直接利用大规模分层扩散模型不同,我们在图像扩散模块之后集成了一个基于ESRGAN的网络,以提高生成图像的分辨率的同时有效解决了参数量爆炸和耗时长的问题。对于在线部署,我们基于FlashAttention优化的神经架构设计了一个高效的推理流程。生成模型计算图的Intermediate Representation(IR)经过端到端人工智能编译器BladeDISC进一步处理,以提高生成模型的推理速度。

我们的实验证明,我们针对特定领域场景的知识增强模型可以更好地理解领域知识,并且可以生成更逼真和多样化的图像。在推理速度上,我们使用了端到端人工智能编译器BladeDISC以及FlashAttention 技术来提高模型的推理速度。我们还将这一技术与阿里云机器学习平台PAI进行集成,以展示其在实际应用中的实用价值,用户可以在自己的任务(数据)上一键式的进行训练,微调以及推理自己的模型。

算法开源

为了更好地服务开源社区,上述三个算法的源代码即将贡献在自然语言处理算法框架EasyNLP中,欢迎NLP从业人员和研究者使用。EasyNLP是阿里云机器学习平台PAI 团队基于 PyTorch 开发的易用且丰富的中文NLP算法框架,支持常用的中文预训练模型和大模型落地技术,并且提供了从训练到部署的一站式 NLP 开发体验。由于跨模态理解需求的不断增加,EasyNLP也将支持各种跨模态模型,特别是中文领域的跨模态模型,推向开源社区,希望能够服务更多的 NLP 和多模态算法开发者和研究者,也希望和社区一起推动 NLP/多模态技术的发展和模型落地。

Github地址:https://github.com/alibaba/EasyNLP

论文汇总

论文名字:FashionKLIP: Enhancing E-Commerce Image-Text Retrieval with Fashion Multi-Modal Conceptual Knowledge Graph

论文作者:王小丹、汪诚愚、李磊、李直旭、陈犇、金林波、黄俊、肖仰华、高明

论文PDF链接:https://aclanthology.org/2023.acl-industry.16.pdf

论文名字:ConaCLIP: Exploring Distillation of Fully-Connected Knowledge Interaction Graph for Lightweight Text-Image Retrieval

论文作者:汪嘉鹏、汪诚愚、王小丹、黄俊、金连文

论文PDF链接:https://aclanthology.org/2023.acl-industry.8.pdf

论文名字:Rapid Diffusion: Building Domain-Specific Text-to-Image Synthesizers with Fast Inference Speed

论文作者:刘冰雁、林炜丰、段忠杰、汪诚愚、吴梓恒、张子鹏、贾奎、金连文、陈岑、黄俊

论文PDF链接:https://aclanthology.org/2023.acl-industry.28.pdf

【对“NLP领域再创佳绩!阿里云机器学习平台 PAI 多篇论文入选 ACL 2023”发布评论】

版权及免责声明:
① 本网站部分投稿来源于“网友”,涉及投资、理财、消费等内容,请亲们反复甄别,切勿轻信。本网站部分由赞助商提供的内容属于【广告】性质,仅供阅读,不构成具体实施建议,请谨慎对待。据此操作,风险自担。
② 内容来源注明“硅谷网”及其相关称谓的文字、图片和音视频,版权均属本网站所有,任何媒体、网站或个人需经本网站许可方可复制或转载,并在使用时必须注明来源【硅谷网】或对应来源,违者本网站将依法追究责任。
③ 注明来源为各大报纸、杂志、网站及其他媒体的文章,文章原作者享有著作权,本网站转载其他媒体稿件是为传播更多的信息,并不代表赞同其观点和对其真实性负责,本网站不承担此类稿件侵权行为的连带责任。
④ 本网站不对非自身发布内容的真实性、合法性、准确性作担保。若硅谷网因为自身和转载内容,涉及到侵权、违法等问题,请有关单位或个人速与本网站取得联系(联系电话:01057255600),我们将第一时间核实处理。
广告
相关
头条
行业大模型,开卷!千模大战,行业大模型怎么做? 行业大模型,开卷!千模大战,行业大模型怎么
文心一言看起来是匆忙上马,我认为这个东西根本就不是为了赚钱,就是为了能赶ChatGPT……
·行业大模型,开卷!千模大战,行业大模型怎么
·多家欧洲企业签署公开信,批评欧盟AI法案草案
·傅盛、朱啸虎朋友圈“吵”起来了 创业究竟该
·全球AI人才需求激增,部分岗位年薪逼近40万美
·马斯克:呼吁暂停先进AI开发的公开信并没有人
图文
NLP领域再创佳绩!阿里云机器学习平台 PAI 多篇论文入选 ACL 2023
NLP领域再创佳绩!阿里云机器学习平台 PAI
Whale 帷幄亮相世界人工智能大会,探秘 AGI 营销最佳实践
Whale 帷幄亮相世界人工智能大会,探秘 AGI
ZAO隐私风险 你的脸已经不仅仅是你的脸了
ZAO隐私风险 你的脸已经不仅仅是你的脸了
九号机器人,这次想用AI运载机器人送快递送外卖
九号机器人,这次想用AI运载机器人送快递送
热点
·AI又出了偏门应用:用算法“脱掉”女性衣服
·ZAO隐私风险 你的脸已经不仅仅是你的脸了
·美的AIR空间站|你用过能管理空气的空调吗?
·新橙派果汁机器人引爆中国独角兽孵化合作大会
·民宿房东的辛酸史 用安伴门锁实现了合规运营
旧闻
·国际人工智能与智慧生活应用博览会即将于昆明
·行业理解加速产业数据智能 百度智能云率先新
·O’Reilly AI峰会纽约站“游记”:AI应用加速
·七鑫易维眼球追踪产品Droolon F1成为HTC官方
·软通智慧亮相2019国际数字经济博览会:全方位
广告
硅谷精选
NLP领域再创佳绩!阿里云机器学习平台 PAI 多篇论文入选 ACL 2023
NLP领域再创佳绩!阿里云机器学习平台 PAI 多篇论文入
Whale 帷幄亮相世界人工智能大会,探秘 AGI 营销最佳实践
Whale 帷幄亮相世界人工智能大会,探秘 AGI 营销最佳
行业大模型,开卷!千模大战,行业大模型怎么做?
行业大模型,开卷!千模大战,行业大模型怎么做?
HPE在Discover上宣布进军人工智能云市场,首款大语言模型震撼登场
HPE在Discover上宣布进军人工智能云市场,首款大语言
多家欧洲企业签署公开信,批评欧盟AI法案草案限制产业发展
多家欧洲企业签署公开信,批评欧盟AI法案草案限制产业
傅盛、朱啸虎朋友圈“吵”起来了 创业究竟该不该逐鹿大模型?
傅盛、朱啸虎朋友圈“吵”起来了 创业究竟该不该逐鹿
关于我们·About | 联系我们·contact | 加入我们·Join | 关注我们·Invest | Site Map | Tags | RSS Map
电脑版·PC版 移动版·MD版 网站热线:(+86)010-57255600
Copyright © 2007-2023 硅谷网. 版权所有. All Rights Reserved. <备案号:京ICP备12003855号-2>