1)趋势一 统一未来:多模态模型加速文本、图像和视频融合
多模态模型:多模态模型能够处理视觉信息、文本信息、听觉信息等多元化数据,可以对不同表现形式的信息进行融合理解,进一步提升大模型的迁移学习能力,是人工智能全面理解真实世界的重要一步。
发展情况:文本、语音、等单模态人工智能模型已经相对成熟,大模型正在朝着多模态信息融合的方向快速发展。从CLIP的诞生再到GPT-4的图像处理能力,图文多模态技术已经取得了显著的进步。大模型不止满足文字和图像,开始向着音频、视频等领域拓展。
未来展望:未来模型将面对更加复杂多样化的交互场景,更加注重各种形式的信息融合,多模态技术将在智能家居、智慧城市、医疗诊断、自动驾驶等方面打开全新的应用空间。
多模态模型迭代历程
2)趋势二 逾越虚拟边界:具身智能成为AI发展新形态
具身智能:具身智能是可以和物理世界进行感知交互,并具有自主决策和行动能力的人工智能系统。具身智能中的智能体能够以主人公的视角感受物理世界控制工程网版权所有,通过与环境产生交互并结合自我学习,从而产生对于客观世界的理解和改造能力。
发展情况:斯坦福大学教授李飞飞将具身智能列为计算机视觉未来的关键发展方向,并将其称之为人工智能研究的“北极星”。现阶段来看,谷歌推出RoboCat大模型,英伟达推出Nvidia VIMA,具身智能已经成为AI龙头企业竞相争夺的高地。
未来展望:通用人工智能与机器人产业正处在快速发展、互相融合促进的战略机遇期,作为两大领域交叉的核心应用,具身智能有望在未来取得快速发展。具身智能将促使智能体具备自主规划、决策、行动、执行等能力,实现人工智能的能力进阶。
人工智能能力进阶
3)趋势三 大模型智慧火花:走向通用人工智能的途径愈发明晰,脑机接口创造新的交互方式
通用人工智能(AGI)是指具有像人类一样的思考能力,可以适应广泛的领域并解决多种问题的机器智能,AGI是人工智能研究的重要目标之一。狭义人工智能是指当下已取得显著进展但局限特定领域的人工智能,如语音识别、机器视觉等。我们正处于狭义人工智能相对成熟、通用人工智能曙光乍现的阶段,目前以GPT-4为代表的自然语言大模型被认为是通往通用人工智能的重要潜在路径,OpenAICEO萨姆·奥特曼(Sam Altman) 表示,AGI时代可能很快就会到来,未来十年内行业可能会拥有超强的AI系统。
人类与人工智能之间的沟通方式也在不断升级,脑机接口有望成为下一代人机交互方式。当前,脑机接口技术正在突破人类的生理界限,不仅为残障人士提供了前所未有的可能性,而且有望成为下一代的人机交互方式。
4)趋势四 数据的力量:海量数据带来模型能力涌现,高质量数据提升模型性能
深度学习的进步建立在以更大的模型处理海量数据基础之上。GPT-1模型从1.17亿参数上升至GPT-3的1750亿参数,模型效果取得了显著突破,同时还有能力的涌现。但是模型参数量的增大带来算力需求的激增,模型架构和参数量提升带来的收益正处于递减状态。
阿伯丁大学、麻省理工大学等研究机构的一项研究显示,高质量的语言数据将在2026年耗尽,低质量的语言数据和图像数据将分别在2030 -2050年、2030 -2060年间枯竭。
以数据为中心的人工智能更加专注于数据的价值,进一步推动AI模型的性能突破。斯坦福大学吴恩达教授提出二八定律:80%的数据+20%的模型=更好的AI。以数据为中心的策略可以解决数据样本不足、数据偏差等问题,高质量数据集成为推动模型性能进一步提升的关键要素,高质量的数据处理、数据标注服务以及完善的数据收集和评估体系的价值将进一步凸显。
5)趋势五 数据中心的AI变革:智算中心成为关键基础设施
云计算是当前重要的AI算力提供方案CONTROL ENGINEERING China版权所有,AI服务器市场获得迅猛发展。根据TrendForce数据,2022年全球AI服务器的出货量占整体服务器比重约1%,随着大模型训练侧和推理侧的需求爆发,AI算力资源需求预计将呈指数增长。根据IDC数据,预计未来5年中国智能算力规模的年复合增长率将达52.3%,全球价值万亿美金的数据中心存量市场将从通用计算逐步过渡向AI计算。
云计算正从CPU为中心的同构计算架构向以CPU+GPU/NPU为中心的异构计算架构深度演进。预计,大模型带来的GPU存量空间将从2023年的277亿美金上升至2025年的1121亿美金,以GPU为代表的AI计算资源中短期将处于供不应求的状态。
随着专有领域的计算需求提升,AI芯片追求更高的性能和更低的功耗,芯片的多样性和生态丰富性将不断提升。部分头部互联网厂商将着力推进AI芯片的自主研发,如谷歌着力打造专注深度学习的TPU,同时不断丰富其AI生态布局。
6)趋势六 大模型C端角色:个人智能助理与新一代的流量入口
大语言模型将成为个人智能助理。大模型目前具备接入互联网、进行内存管理等能力,通过目标任务自动拆分、计划制定、计划实施等方式,能够自主完成用户的需求,成为每个人的智能助理,如制定旅行计划并进一步预定宾馆和餐饮。
大模型正在成为新一代的流量入口。GPT-4正在逐步开放插件功能www.cechina.cn,通过底层模型连接第三方应用,从而构建丰富的生态系统。GPT-4自插件功能开放以来,目前已经接入超过500个插件(其中包括教育、金融等场景)。随着大模型能力的不断增强以及插件生态的不断丰富,大模型有望成为新一代的人机交互方式以及流量入口,2023年5月OpenAI官网访问量为18.6亿次,是全球第19名次的互联网访问IP。
GPT-4构建丰富的应用生态
7)趋势七 大模型B端应用:专业数据与成本驱动行业模型百花齐放,打开广阔应用空间
数据壁垒带来企业端大模型百花齐放。通用大模型可以帮助用户解决一般性问题,而当企业需要处理其特定行业的数据和任务时,往往需要针对其行业数据库来对基本模型进行微调,垂直行业的特性和需求不尽相同控制工程网版权所有,因此大模型的应用也呈现出多样化的趋势。
B端应用出于对模型的经济性考量,未来将呈现阶梯式、差异性需求。大模型在垂直领域的商业化落地对模型的运行成本更为敏感,模型的推理成本与模型的参数量多少密切相关,需要不同参数规模的大模型组成多层次的产品组合,从而在不同场景下实现最佳的经济性,进一步提升大模型的丰富度。
B端大模型多层级结构
8)趋势八 大模型轻量化:降低应用成本、带动端侧算力发展
随着大模型小型化、场景化需求增加,同时出于对AI应用的经济性、可靠性和安全性考量,部分场景的推理将逐步从云侧扩展向端侧,带动端侧算力需求的进一步提升。
目前多个大模型都已推出“小型化”和“场景化”版本。5月23日谷歌发布的PaLM-2大模型www.cechina.cn,其中最轻量版本“壁虎”可在移动端运行,运行速度快且支持离线操作,其他多个大模型也都有其对应的小参数版本。
大模型端侧应用布局不断加速。端侧算力正在快速发展过程中,高通通过量化、编译和硬件加速进行优化,使Stable Diffusion能在搭载第二代骁龙8移动平台的手机上运行。高通在微软Build2023开发者大会上展示了最新的端侧AI能力以及在下一代Windows 11上开发生成式AI的工具,并表示未来几个月大语言模型有望在端侧运行。
9)趋势九 大模型的深远影响:重构劳动力市场、改写科研范式
大语言模型对劳动力市场结构的影响深远而复杂。据OpenAI联合宾夕法尼亚大学的研究报告预测,约80%的美国劳动力可能有至少10%的工作受到大语言模型的影响。
大语言模型的应用带来劳动力市场结构的调整和变化。短期而言,大语言模型可能替代部分低技能或重复性工作;中期来看,大语言模型也将创造新的人工智能相关就业机会;长期来看,大语言模型的应用将会深度改变各行业的工作模式和商业模式,让企业的组织架构更加扁平化和小型化。过程中需要个人和企业去积极适应,发展人类独有的创新、协作和社交等能力,与人工智能共同进化。
AI与前沿科学的结合展现出了巨大潜力,可显著降低前沿科技研究中的智力成本并提升研究效率。生命科学、气象预测、数学、分子动力学等前沿科学均得到了人工智能的广泛助力,AI for Science将带来科研范式的变革和新的产业形态。
10)趋势十 AI治理与技术的平衡:AI可解释性亟待增强,监管紧迫性日益凸显
在人工智能的快速发展中,加强AI监管与推动AI技术的进步同等重要。AI能力带来应用的便利性,同时也可能引发数据隐私、算法偏见、AI伦理等一系列问题。
从技术角度来看,可以通过可解释AI等技术手段增强AI的可信度。可解释AI使人工智能的决策过程透明化,增加输出内容的可理解性和可信任度,对于构建用户对AI系统的信任、提升系统的有效性、应对潜在的伦理问题都至关重要。
从规范角度来看,各国政府也都已经开始采取行动,制定和执行各种AI政策和法规。4月份,我国网信办出台《生成式人工智能服务管理办法(征求意见稿)》,明确了生成式人工智能的定义,从明确条件要求、划定责任主体、形成问题处理机制、明晰法律责任几个方面为行业划定底线。
人工智能相关法案