人工智能已经在“听、说、看”等感知智能领域达到或超越了人类水准,但在需要外部知识、逻辑推理或者领域迁移的认知智能领域还处于初级阶段。认知智能被认为是迈向下一代人工智能的关键性突破,而超大规模预训练模型则被认为是认知智能的基础设施。自BERT以来,预训练经历了规模从小到大,从文本到多模态等阶段,呈现出如火如荼的发展态势。这些研究以多种多样的角度进行创新,涌现了很多令人激动的成果。阿里巴巴达摩院研发的超大规模多模态预训练模型M6连续突破百亿、千亿、万亿里程碑,实现了规模和效果的快速发展,同时大力推动低碳AI的发展,让大模型更加普惠和友好。
杨红霞博士作为M6的技术带头人常年深耕在产业化大规模落地的人工智能相关技术,目前负责主导阿里下一代人工智能突破性技术-认知智能的技术发展与场景应用落地。杨红霞在顶级统计和机器学习国际学术期刊&会议发表论文70余篇,美国专利9项,中国专利局在审专利9项,曾带领团队获2019世界人工智能大会最高奖卓越人工智能引领者(Super AI Leader,简称SAIL奖),2020年国家科学技术进步奖二等奖和2020年杭州市创新领军团队。杨红霞加盟阿里前,曾任IBM全球研发中心Watson研究员, Yahoo!首席数据科学家。杨红霞先后在南开大学、美国杜克大学获得学士和博士学位。
本文来自于 WAIC 2021 图神经网络和认知智能论坛上以及CCF AI产业高峰论坛杨红霞发表的主题演讲的内容整理。
超大规模多模态预训练模型业界代表工作
BERT作为预训练模型的开山鼻祖已经在去年10月份的时候被谷歌对外宣布全部应用于其搜索引擎控制工程网版权所有,效率提升10%,对于谷歌这样拥有这么大流量的搜索引擎和顶尖的技术人员的公司,10%的提升可以被认为是一个跨时代的技术升级。随后,去年年中OpenAI发布了GPT-3[1],首次将参数规模推向千亿级别,此外,证明了预训练模型有更加接近通用人工智能(AGI)的能力,即小样本甚至零样本学习能力。同时DALLE[2]的文本到图像生成结果也向业界展示了预训练模型是具有一定创造能力的。谷歌随后又先后发布了GShard[3]和Switch Transformer[4],尤其后者首次在参数规模上问鼎万亿,其采用了MoE、稀疏激活和混合精度等技术。在今年谷歌I/O大会上,CEO Sundar Pichai也重磅发布了Multitask Unified Modeling(MUM)[5]模型,这是一个多模态多任务的预训练模型,据称其能力比BERT强大1000倍。
阿里巴巴也在积极探索多模态预训练技术的发展,在今年连续发布百亿、千亿和万亿参数模型[6,7],并且在低碳AI、AI创造力(文到图生成能力)和大规模服务化上在业界做到了较为领先水平:
低碳AI:提升超大规模预训练模型的资源利用率与训练效率,沉淀大模型高效训练的能力。相比此前英伟达使用3072 A100 GPU实现万亿参数[8]、谷歌使用2048 TPU实现1.6万亿参数大模型[4],此次达摩院仅使用480卡V100 32G GPU就实现了万亿模型M6[7],节省算力资源超80%,且训练效率提升近11倍。低碳AI有助于中国高校实验室、中小企业一起参与到多模态预训练建设中,起到技术普惠的作用;
AI创造力:利用M6的文本&图像的生成能力[9],数字化传统服饰制造业,将以月为周期开发缩短到以周为周期,结合淘工厂能力,快速投入市场孵化爆品。我们的自动化生产流程已经开始帮助新制造相关业务生成新款式和素材,这也是多模态预训练在文到图生成方向首次业界商业化的尝试;
大规模服务化:利用超大规模预训练模型学习到的通用知识,稳定的为各类下游应用提供能力支持。目前下游任务包括不限于:文本生成类:受限文案生成(利益点),电商推荐理由生成,文本/视觉问答,图像描述生成,文本续写、写作;图像生成:服装/鞋类设计、素材生成、通用领域文到图生成;分类任务:文本分类,多模态分类和检索任务:图文Embedding服务。
高效的模型框架
相比于传统的3D分布式模型(数据、模型和流水线并行),我们同时也完成了专家并行,通过结合混合精度,整体提速优化约90%。在谷歌的GShard和Switch Transformer里都提到过MoE负载不均衡是一个比较严重的问题,他们使用的是Top-1或者-2的选择机制控制工程网版权所有,结合auxiliary loss的使用。我们的发现是负载不均衡不是问题,重要的是激活的专家个数和其容量(capacity),激活个数越多效果越好,但是大模型部署挑战急剧升高,谷歌推荐的auxiliary loss有可能导致下游任务结果变差。
为此我们提出了Expert prototyping的模型,把专家分到k个组,每个组是top-1机制,最终是k top-1稀疏激活:
最终在损失(loss)和收敛速度上都取得了更好的效果:
文到图生成能力的突破
利用预训练语言模型做图像生成控制工程网版权所有,核心方法在于两阶段学习:
Stage1负责学习图像的离散code表示,对比OpenAI的dVAE,我们使用VQGAN做Stage1能还原更加高清的图像。
Stage2使用预训练的M6做text+code的联合学习,利用语言模型的训练目标,构建文本和图像离散表示的关联在生成阶段,M6根据输入文本生成code序列,并利用Stage1的decoder将code序列还原成图像。业界代表工作DALLE或者VQGAN都是autoregressive(AR)的方式,AR是token-by-token生成方式速度慢,尤其与Transformer结合,此外每个生成的token只能看到过去www.cechina.cn,不是双向的,也不能解决preservation control的设计师需求,比如一个领子特别流行,生成的时候要保留这个领子。为此我们提出了一种边remask边预测的非AR方式,极大的提高了清晰度和生成的速度[9],相比于OpenAI DALLE的256*256,我们现在生成图片的清晰度可以做到1024*1024,满足直接投入生产的需求。
大规模商业化落地
结语
在预训练的建设上,达摩院一直秉承着技术普惠的思路,帮助大模型可以走入高校的Lab、中小企业,所以我们一直在关注和投入在低碳AI的建设上,也取得了一定的结果。同时,我们也发现,随着参数规模的扩大,预训练模型具备了一定的更接近通用人工智能的推理和创新能力。在阿里内部丰富的、非常有挑战的场景下,我们也不断的锤炼M6的各项能力,不久的未来我们希望开放该平台,和中国科技界一起在下一代人工智能的基础设施上携手做出突破!
参考:
[1] Language Models are Few-Shot Learners, arxiv 2020
[2] Zero-Shot Text-to-Image Generation, ICML 2021
[3] GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding, arxiv 2020
[4] Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity, arxiv 2021
[5] AI成主角!最强搜索模型MUM,10倍算力TPU,百万比特量子计算,一文看尽Google I/O 2021大会亮点,AI科技评论,2021-05-21
[6] M6: A Chinese Multimodal Pretrainer, KDD 2021
[7] Exploring Sparse Expert Models and BeyondCONTROL ENGINEERING China版权所有, arxiv 2021
[8] Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism, arxiv 2021
[9] UFC-BERT: Unifying Multi-Modal Controls for Conditional Image Synthesis, arxiv 2021