OpenAI刚刚发布了其新一代的AI模型GPT-4,它是一个大型多模态模型,可以接受图像和文本输入并生成文本输出。据悉,该模型在各种专业和学术基准上展示了人类水平的表现,现已在ChatGPT和Bing中可用。
ChatGPT是去年12月刚刚推出的流行的人工智能聊天机器人程序。新的GPT-4语言模型已经被吹捧为比支持ChatGPT的GPT-3.5模型有了巨大的飞跃,尽管一开始只有ChatGPT Plus的付费用户和开发者可以使用它。
那么,是什么让 GPT-4 与 GPT-3.5 等以前的版本区分开来?TechCrunch在"5 ways GPT-4 outsmarts ChatGPT"一文中指出,以下5个方面是新AI模型GPT-45的主要突破。
1. GPT-4可以辨识和理解图像
GPT-4将为ChatGPT提供各种新功能,但最大的亮点是传闻中的多模态功能。这种多功能机器学习系统最显着的变化是它是"多模态"的,这意味着它可以理解不止一种"模态"的信息。它可以让聊天机器人人工智能处理文本、图像,甚至最终处理视频输入。
之前的GPT-3 仅限于文本:它们可以读写,但仅此而已(尽管对于许多应用程序来说绰绰有余)。但是,GPT-4 可以给出图像,它将处理它们以查找相关信息。当然,你可以简单地要求它描述图片中的内容,但更重要的是,它的理解力远不止于此。
OpenAI提供的例子实际上是让它解释一个搞笑的超大iPhone连接器图片中的笑话,这是与Be My Eyes合作的项目,一个盲人和低视力人群使用的应用程序,让志愿者描述他们的手机看到的东西,更有启示意义。
在Be My Eyes的视频中,GPT-4描述了一件衣服上的图案,识别了一株植物,解释了如何到达健身房的某台机器,翻译标签(并提供食谱),阅读地图,并执行许多其他任务,以表明它真的得到了图像中的东西,如果它被问到正确的问题。它知道这件衣服是什么样子的,但它可能不知道它是否适合你的面试。
另外,GPT-4懂得大部分主流的程式语言,能够担任撰写程序的辅助帮手,结合前图像识别功能,OpenAI更直接拍摄一张手绘的网站草稿www.cechina.cn,让GPT-4当场生成出整个网站的代码 。
OpenAI在示范中借由这样一张手稿,就让GPT-4直接生成出一个简单的网页。
2. GPT-4更难被欺骗
尽管今天的聊天机器人做得很好,但它们往往容易被引入歧途。稍加哄骗就能说服他们,他们有时只是在解释一个 "坏的人工智能 "会做什么,或者其他一些小虚构,就能让模型说出各种奇怪的、坦率的令人不安的事情。
另一方面,GPT-4已经在很多很多的恶意提示上接受了训练--这些提示是用户在过去一两年中帮助OpenAI的。考虑到这些,新模型在 "事实性、可引导性和拒绝走出护栏 "方面要比其前辈们好得多。
按照OpenAI的描述,GPT-3.5是一个新的训练架构的 "试运行",他们将其中的经验教训应用于新版本,带来了"前所未有的稳定"。新模型也能更好地预测它的能力,这让人更少感到意外。
3. GPT-4具有有更强大的记忆力
这些大型语言模型是在数以百万计的网页、书籍和其他文本数据上训练出来的www.cechina.cn,但当它们真正与用户进行对话时,它们能 "记住 "的东西是有限的(人们对此表示同情)。
GPT-3.5和旧版ChatGPT的限制是4096个 "标记",大约是8000个字,或者大约是一本书的4到5页。因此,在它的注意功能中,当事情经过一段时间后,它就会有点失去跟踪。
GPT-4的最大标记数为32,768,也就是2^15,如果你想知道为什么这个数字看起来很熟悉。这相当于约64,000字或50页的文本,这足以满足一整部戏剧或短篇小说的需要。
这意味着,在对话或生成文本时,它将能够记住多达50页左右的内容。因此,它将记住你在20页的聊天记录中谈到的内容,或者,在写故事或文章时,它可能会提到35页之前发生的事件。这是对注意力机制和代币计数如何工作的一个非常近似的描述,但总的想法是扩大记忆和伴随的能力。
4. GPT-4支持更多语言
人工智能世界由讲英语的人主导,从数据到测试再到研究论文,一切都是用这种语言。但是,当然,大型语言模型的功能适用于任何书面语言,并且应该在这些语言中提供。
GPT-4 通过证明它能够在 26 种语言(从意大利语到乌克兰语再到韩语)中高精度地回答数千个多项选择题www.cechina.cn,朝着这一点迈出了坚实的一步。虽然它最擅长罗曼语和日耳曼语,但可以很好地推广到其他语言。
这种对语言能力的初步测试很有希望,但远未完全接受多语言能力;测试标准一开始就是从英语翻译过来的控制工程网版权所有,而且多项选择题并不能真正代表普通的语音。但它在没有经过专门训练的情况下做得很好,这说明GPT-4有可能对非英语使用者更加友好。
5. GPT-4有不同的"个性"
"可操纵性"在AI中是一个有趣的概念,指的是它们按需改变行为的能力。这可能是有用的,例如扮演一个富有同情心的倾听者的角色,也可能是危险的,例如当人们让模型相信它是邪恶的或抑郁的。
GPT-4 比 GPT-3.5 更原生地集成了可操纵性,用户将能够改变 "具有固定言语、语调和风格的经典ChatGPT个性",使之更适合他们的需要。这可以通过向聊天机器人发送诸如 "回答好像您是有线电视新闻采访的人"之类的消息来完成。但实际上,您只是在向"默认"GPT-3.5 个性提出建议。现在,开发人员将能够从一开始就以第一视角、对话风格、语气或交互方式进行模拟复制。
GPT-4 与其前身之间的差异很多,大多数比上面这些更微妙或更具技术性。毫无疑问,随着时间的流逝,我们将学到更多,用户将最新的语言模型通过其步伐。
局限性和风险
GPT-4并不完美,与早期的GPT模型有类似的局限性。它仍然会对事实产生 "幻觉",并出现推理错误,因此在使用语言模型输出时应谨慎行事,特别是在高风险的情况下。
此外,GPT-4仍然不知道2021年9月以后发生的事件,这可能导致它犯简单的推理错误,并接受错误的陈述为真实。它也可能在像人类这样的挑战性问题上失败,例如在其代码中引入安全问题。
GPT-4可以做出自信但不正确的预测,而且并不总是仔细检查其工作。有趣的是www.cechina.cn,基础模型善于预测其答案的准确性,但这种能力在后期训练后会降低。
虽然GPT-4的能力很强,但它也带来了新的风险,如产生有害的建议、错误的代码或不准确的信息。
OpenAI一直在努力降低这些风险,与50多位专家一起对模型进行对抗性测试,并收集更多数据以提高GPT-4拒绝危险请求的能力。因此,OpenAI对GPT-4进行了许多改进,使其比GPT-3.5更安全。
GPT-4比之前的版本少了82%的不恰当内容,而且它在医疗建议和自我伤害等敏感话题方面更好地遵循了政策。
虽然OpenAI使该模型对不良行为的抵抗力更强,但产生违反使用规则的内容仍然是可能的。OpenAI表示,GPT-4可能对社会有益或有害,因此它正在与其他研究人员合作以了解潜在的影响。
GPT-4的发布标志着OpenAI努力扩展深度学习的一个重要里程碑。虽然不完美,但它在各种学术和专业基准上表现出人类水平的表现,使其成为一个强大的工具。但是,在高风险上下文中使用语言模型输出时应谨慎。
GPT-4 项目的一个重要重点是构建一个可预测的深度学习堆栈。OpenAI 开发了基础设施和优化,在多个规模上具有可预测的行为,并且可以准确预测 GPT-4 在训练期间的最终损失。
OpenAI一直致力于降低风险并构建可预测扩展的深度学习堆栈,这对于未来的AI系统至关重要。