AI从“一专一能”迈向“多专多能”

　　“紫东太初”是全球首个图、文、音三模态大模型，开创性地实现了图像、文本、语音三模态数据间的“统一表示”与“相互生成”，实现了“以图生音”和“以音生图”，理解和生成能力更接近人类，为打造多模态人工智能行业应用提供创新基础，向通用人工智能迈出了重要一步。

　　近日，2022世界人工智能大会在上海举行，由武汉人工智能研究院、中国科学院自动化研究所和华为技术有限公司联合研发的“紫东太初”多模态大模型项目获得了此次大会的最高奖项。“此次大会的‘智联世界，元生无界’主题，恰好揭示了人类智能未来发展的两大方向，智联世界代表弱人工智能对物理世界的作用及改造，而元生无界则代表着利用人工智能技术构建元宇宙，实现虚实融合的新型世界。”中国计算机行业协会数据安全专业委员会委员、北京理工大学网络与安全研究所所长闫怀志说。

　　中国科学院自动化研究所研究员、武汉人工智能研究院院长王金桥表示，“紫东太初”是全球首个图、文、音三模态大模型，开创性地实现了图像、文本、语音三模态数据间的“统一表示”与“相互生成”，实现了“以图生音”和“以音生图”，理解和生成能力更接近人类，为打造多模态人工智能行业应用提供创新基础，向通用人工智能迈出了重要一步。

　　“紫东太初”具备部分类脑特性

　　在闫怀志看来，通用人工智能旨在制造出像人类一样思考、像人类一样拥有全面智能、能够从事多类型工作的机器，因此又被称为强人工智能。目前的人工智能充其量只是承袭了人类的认知结果，远未形成不同感官之间的、相互确定的认知能力。

　　传统的人工智能，比如大名鼎鼎的阿尔法围棋（AlphaGo），在一些领域内已经“孤独求败”。不过，北京德火科技有限责任公司技术总监李岩表示，现阶段许多行业内应用的人工智能技术仍处于比较初级的阶段，与科幻电影中设想的各类人工智能应用还相去甚远。

　　“我们一直以来都在追求如何解决当前人工智能‘一专一用’的问题，基于自监督学习的多模态预训练模型是当前的一个重要发展路径。”王金桥说。

　　自监督学习指的是从大规模的无监督数据中挖掘隐含的监督信息进行训练，从而得到对下游任务有价值的表征，相比于传统的深度学习，是更接近人类的学习方式。

　　“能否在同一个维度、同一个空间，面对不同的场景提供同一个多模态大模型，摆脱‘一专一能’，是实现人工智能通用化的基础。”王金桥说。“紫东太初”可以将图像、文本、语音等不同模态数据实现跨模态的统一表征和学习，突破了当前AI技术局限，具备部分类脑特性，从“一专一能”迈向“多专多能”。

　　实现三模态内容的统一与重现

　　曾经，“以图生音”和“以音生图”只是幻想，而如今的“紫东太初”却让这两者成为了现实。“以图生音”和“以音生图”究竟是如何实现的？实现图、文、音三模态转化的真正关键以及底层逻辑是什么？

　　据悉，“紫东太初”三模态间的相互转换和生成，其核心原理是视觉、文本、语音不同模态通过各自编码器映射到统一语义空间，然后通过多头自注意力机制学习模态之间的语义关联以及特征对齐，形成多模态统一知识表示；之后，再利用编码后的多模态特征www.cechina.cn，通过解码器分别生成文本、图像和语音。

　　王金桥表示：“通俗地说，‘紫东太初’就是将形式各不相同的三模态内容转化为一个统一的多模态知识表示，之后再次利用这种知识表示重新生成三模态内容，以此实现‘以图生音’和‘以音生图’。”

　　同时，王金桥还表示，“紫东太初”凭借四大突破，有效助力以多模态认知为核心的通用人工智能发展。

　　具体来说，一是首次提出多层次、多任务跨模态自监督学习框架，支持从词条级走向模态级、样本级的三级预训练自监督学习方式；二是首次完成弱关联多模态数据语义统一表示，减少数据收集与清洗代价；三是首次实现多模态理解与生成任务的统一建模，支持跨模态检索、多模态分类、语音识别、图像生成等理解与生成任务；四是首次实现无监督超越有监督方法，基于5%—10%的数据标注，实现100%的有监督学习效果。

　　打造典型人工智能行业应用

　　“与单模态和图文两模态相比，‘紫东太初’采用图、文、音三模态大模型，可以灵活支撑全场景的人工智能应用。”王金桥说，“‘紫东太初’还具有在无监督情况下多任务联合学习以及不同领域数据快速迁移的强大能力。引入语音模态后的多模态预训练模型，可实现共性图文音语义空间表征和利用，并突破性地直接实现三模态的统一表示，对更广泛、更多样的下游任务提供模型基础支撑。”

　　“紫东太初”还与杭州移动共同打造了为杭州文旅代言的智能文旅虚拟人“杭小忆”。“紫东太初”的多模态对话支持南宋御街场景陶瓷、丝绸、活字印刷、特色小吃等场景化数据的增量训练www.cechina.cn，助力南宋御街的导游、导购人工智能数字人实现语音识别、中文对话、语音交互、以音生图等功能。

智造觉醒：当工业母机学会“思考”——华龙讯达AI PLC+人工智能焊接…

AI驱动的数据管理：工业自动化不可缺失的关键一环

2026：物理智能元年

WAGO-万可专栏

红狮专栏

百通赫斯曼专栏

图说工控

频道推荐

在线研讨会

关于我们

CE全球

网站地图

新闻中心

子站

技术频道

社区

社区

联系我们

友情链接