|
近几个月来,互联网和科技圈几乎充斥着各种概念和应用的帖子。去年年底发布的时候,着实让大家震惊了。原来AI还可以这么玩,对于中国所谓的人工智能公司来说就更惨了。
3月9日,微软德国CTO布劳恩在一场AI活动上表示,GPT4将于下周发布,是多模态模型,不仅限于文本,还包括视频。那么,GPT4 有何不同,它与我们 1 月份使用的早期版本 GPT3 有何不同?都是我们比较感兴趣的话题。
事实上,GPT3(Pre-3)和GPT4(Pre-4)是自然语言处理(NLP)领域最先进的预训练模型。 GPT3刚推出时,拥有175亿个参数,是当时人工智能史上最大的语言模型之一。
这个记录并没有持续多久,GPT3.5很快就发布了。这是GPT3和GPT4之间的过渡模型。它拥有1750亿个机器学习参数,是GPT3 175亿个参数的10倍。 GPT4是即将发布的下一代语言模型。预计其参数将超过10万亿个,是GPT3.5参数的57倍。
那么GPT 4有多强大呢?今天凌晨,备受期待的大型多式联运车型GPT 4正式发布。
同时,该出版物表示GPT-4可以接受图像和文本输入并输出文本内容。虽然它的能力在很多现实场景中不如人类,但在各种专业和学术基准测试中已经达到了人类水平的表现。它有多强大?输入手绘草图,GPT-4可以直接生成最终设计的网页代码。
同时,在各项标准化考试中,GPT-4在SAT上获得了700分,在GRE上几乎满分,在逻辑能力上GPT-3.5。
GPT-4在高级推理能力上超越了它。在律师模拟考试中,其背后的GPT-3.5排名在后10%左右,而GPT-4则排名在前10%左右。
GPT-4的长度限制提高到了32K,这意味着它可以处理超过25,000字的文本,并且可以使用长篇内容创建、扩展对话、文档搜索和分析等。
GPT-4的文本输入功能正在通过API发布,图像输入功能尚不可用。 Plus订阅者可以直接获得GPT-4的试用权,但有使用限制,4小时内最多只能发布100条消息。开发者还可以申请GPT-4 API并进入等待名单等待批准。申请链接://gp...
随着时间的推移,它会自动更新到推荐的稳定模型(可以通过调用gpt-4-0314来锁定当前版本,该版本将支持到6月14日)。定价为每 1000 美元 0.03 美元和每 1000 美元 0.06 美元。默认速率限制为每分钟 40k 和每分钟 200 个请求。
GPT-4 的上下文长度为 8192。还提供对 32768 上下文(约 50 页文本)版本 gpt-4-32k 的有限访问,该版本也将随着时间的推移自动更新(当前版本 gpt-4-32k -0314,也将支持到 6 月 14 日)。价格为每 1K 0.06 美元和每 1K 0.12 美元。
此外,自动评估AI模型性能的框架Evals也已开源,以便开发者可以更好地评估模型的优劣,指导团队进一步改进模型。
开源地址://eval...
那么GPT-4带来了哪些令人震惊的功能呢?让我们一一回顾一下。
GPT-4升级为“测试大师”,基准测试表现远胜现有大型机型
如果你是随便聊天的话,你可能感觉不到GPT-3.5和GPT-4之间的区别。但当任务的复杂性达到足够的阈值时,GPT-4 将比 GPT-3.5 显着更加可靠和更具创造性,并且可以处理更细致的指令。
为了了解这两个模型之间的差异,他们在各种基准上进行了测试,包括最初为人类设计的模拟考试。他们使用最新的公开试题(对于奥林匹克和 AP 免费答案)或购买 2022-2023 版练习试题。
这些考试没有专门的培训。在模型训练过程中,发现了一些考试中的问题。然而,结果被认为具有代表性。详细信息请参考GPT-4论文(//gpt-…)。
GPT-4 还根据为机器学习模型设计的传统基准进行了评估。 GPT-4 显着优于现有的大型语言模型以及大多数最先进的 (SOTA) 模型,其中可能包括特定于基准的制作或附加训练协议:
许多现有的机器学习 (ML) 基准都是用英语编写的。为了首先了解其在其他语言中的表现,MMLU 基准(一组涵盖 57 个主题的 14,000 个多项选择题)已使用 Azure 翻译成各种语言。
在测试的 26 种语言中,GPT-4 在英语中的 24 种表现优于 GPT-3.5 和其他大型语言模型(PaLM),其中包括拉脱维亚语、威尔士语、斯瓦希里语等低资源语言。
GPT-4也在内部使用,这对支持、销售、内容审核和编程等功能影响很大。它还用于帮助人类评估人工智能输出,开始其对齐策略的第二阶段。
描述照片、理解图表并回答论文
GPT-4 可以接受文本和图像提示,与纯文本设置并行,允许用户指定任何视觉或语言任务。具体来说,给定由散布的文本和图像组成的输入,它可以生成文本输出,例如自然语言、代码等。在生成带有文本和照片的文档、图表或屏幕截图时,GPT-4 展示了与纯文本输入类似的功能。
此外,可以通过为纯文本语言模型开发的测试时技术来增强 GPT-4,包括少样本和思维链 (CoF) 提示。图像输入仍处于研究预览阶段,尚未公开。官方网站上展示了七个视觉输入的示例。
1、描述多张图片的内容,找出不规范之处。
输入一张由三张图片组成的图片。用户输入“这张图片有什么奇怪的?一次描述一张图片。” GPT-4会分别描述每张图片的内容,并指出内容。一个大的、过时的 VGA 端口插入一个小的、现代的智能手机充电端口的形象是荒谬的。
2.根据图表和推理回答
用户询问格鲁吉亚和西亚的平均每日肉类消耗量是多少,要求 GPT-4 在给出答案之前提供一步一步的推理,GPT-4 也可以按需回答。
3.看图测试
用户还可以直接提供考题的照片,让 GPT-4 一步步思考答案。
4. 简要指出图中不一致的地方。
当用户问“这张照片有什么不寻常的地方吗?” GPT-4 简洁地回答:“一名男子正在一辆行驶中的出租车车顶的熨衣板上熨衣服。”
5.阅读论文,总结摘要并解释图表
给定论文的几张照片,GPT-4可以对其进行概括,也可以扩展和解释用户指定的图片内容。
六、“鸡块地图”解读
当被要求解释图片中的模因时,GPT-4 回答说这是一个笑话,结合了两个不相关的东西:太空中的地球照片和鸡块。
7.理解漫画的含义
最后一个例子是让 GPT-4 解释一下这幅漫画,GPT-4 认为这幅漫画讽刺了统计学习和神经网络在提高模型性能方面的差异。
通过在一组狭窄的标准学术愿景基准上评估 GPT-4 的性能来进行预览。但这些数字并不能完全代表其能力,因为该模型可以处理的新的、令人兴奋的任务不断被发现。计划很快发布进一步的分析和评估数据,并对测试时的技术影响进行彻底调查。
此外,该公司一直在研究其关于定义人工智能行为的文章中概述的计划的各个方面,包括可操作性。开发人员(以及很快的用户)现在可以通过在“系统”消息中描述这些方向来决定人工智能的风格和任务,而不是采用固定的冗长、语气和风格。
系统消息 ( ) 允许 API 用户在一定限制内定制用户体验。该领域将继续进行改进(特别是知道系统消息是“越狱”当前模型的最简单方法,即遵守边界并不完美),但鼓励用户尝试一下并让他们知道什么他们认为。
关于可操作性,显示了 3 个示例。
1、示例1
示例1是GPT-4,作为一个总是以苏格拉底风格回答的导师,不是直接给学生某个线性方程组的答案,而是通过将问题分解为更简单的部分来指导学生。学会独立思考。
2. 示例2
示例2是将GPT-4变成“莎士比亚的海盗”并忠于自己的个性。可以看到它在多轮对话中都保持着自己的“个性”。
3. 实施例3
示例3是让GPT-4成为一个AI助手,总是用json编写响应输出,然后GPT-4的回答风格变成这样:
最真实、稳定、可控
其表示,其团队花了 6 个月的时间利用对抗性测试程序和经验教训来迭代调整 GPT-4,在真实性和可控性方面取得了有史以来最好的结果(仍远未达到完美)。
在过去的两年里,整个深度学习堆栈得到了重建,并从头开始联合设计了一台超级计算机,用于与 Azure 云平台处理其工作负载。
一年前,GPT-3.5作为系统的第一次“试运行”进行了训练,发现并修复了许多错误,理论基础得到了完善。因此,GPT-4 的训练运行(至少对于 GPT-4 而言)比以往更加稳定,成为第一个能够提前准确预测其训练性能的大型模型。
随着公司继续专注于可靠的扩展,该公司的目标是完善其方法,以帮助其提前预测和为未来做好准备的能力。被认为对安全至关重要。
与之前的 GPT 模型一样,GPT-4 基本模型经过训练来预测文档中的下一个单词,并使用公开数据(例如互联网数据)以及许可数据进行训练。这些数据是网络规模的数据集,包括数学问题的正确和不正确的解决方案、弱推论和强推论、矛盾和一致的陈述,并代表了各种各样的意识形态和想法。
因此,当提示问题时,底层模型可以以多种可能与用户意图相去甚远的方式做出响应。为了使其与护栏 () 内的用户意图保持一致,使用带有人类反馈的强化学习 (RLHF) 来微调模型行为。
值得注意的是,该模型的力量似乎主要来自预训练过程 - RLHF 不会提高测试分数(如果不积极进行,它实际上会降低测试分数)。但模型的控制来自训练后的过程——基础模型需要快速工程才能知道它应该回答什么问题。
GPT-4 的局限性
尽管功能更强大,GPT-4 也具有与早期 GPT 模型类似的局限性。最重要的是,它仍然不完全可靠(受事实“幻觉”和推理错误的影响)。使用语言模型输出时应小心,尤其是在高风险上下文中,使用满足特定用例需求的确切协议(例如人工审查、附加上下文的基础或完全避免高风险使用)。
尽管如此,相对于之前的模型(其本身随着每次迭代的改进),GPT-4 显着减少了幻觉。在内部对抗真实性评估中,GPT-4 的得分比 GPT-3.5 高出 40%。
外部基准已经取得了进展,例如测试模型将事实与对抗性选择的一组虚假陈述分开的能力的基准。这些问题与事实上不正确的答案相匹配,这些答案在统计上很有吸引力。
GPT-4 基础模型在此任务上仅比 GPT-3.5 稍好一些;但经过RLHF训练(应用与GPT-3.5相同的流程)后,差距很大。
看看下面的一些例子,其中 GPT-4 拒绝接受常见的谚语(你不能教老狗新把戏,即“当你老了就很难学会一门手艺”),但它仍然遗漏了一些微妙的细节(埃尔维斯·普雷·斯莱不是演员的儿子)。
GPT-4普遍缺乏对绝大多数数据中断(2021年9月)之后发生的事件的理解,并且无法从经验中学习。它有时会犯一些简单的推理错误,这些错误似乎与其跨多个领域的能力不成比例,或者过于容易接受用户明显的虚假陈述。
有时,它会像人类一样无法解决难题,例如在其生成的代码中引入安全漏洞。 GPT-4 还可以自信地在预测中犯错误,而无需在可能出错时再次检查其工作。有趣的是,基本的预训练模型经过了高度校准(其对答案的预测置信度通常与正确的概率相匹配)。然而,通过目前的训练后过程,校准减少了。
如何规避风险
我们从训练一开始就一直在迭代 GPT-4,使其更安全、更一致。其工作包括预训练数据选择和过滤、评估和专家参与、模型安全改进以及监控和执行。 GPT-4 与以前的模型存在类似的风险,例如生成有害的建议、错误的代码或不准确的信息。同时,GPT-4的附加功能也会带来新的风险方面。
为了了解这些风险的程度,聘请了来自人工智能一致性风险、网络安全、生物风险、信任与安全以及国际安全领域的 50 多名专家对模型进行对抗性测试。他们的发现使得能够在需要专业知识进行评估的高风险领域测试模型行为。这些专家的反馈和数据用于模型改进。
GPT-4 在 RLHF 训练期间加入了额外的安全奖励信号,通过训练模型拒绝此类内容的请求来减少有害输出。奖励由 GPT-4 零样本分类器提供,该分类器根据安全相关提示确定安全边界和完成方法。为了防止模型拒绝有效请求,从各种来源收集了不同的数据集,并将安全奖励信号(具有正值或负值)应用于允许和不允许的类别。
与 GPT-3.5 相比,其缓解措施显着改进了 GPT-4 的许多安全功能,将模型响应禁止内容请求的可能性降低了 82%,并且 GPT-4 根据政策和自残)增加了 29%。
一般来说,模型层面的干预使得不良行为的诱发变得更加困难,但仍然无法完全避免。强调当前需要通过部署时安全技术(例如监控滥用)来补充这些限制。
GPT-4 和后续模型有可能以有益和有害的方式对社会产生重大影响。我们正在与外部研究人员合作,改进我们理解和评估未来系统中可能出现的潜在影响和危险能力的方式,并将很快分享更多有关 GPT-4 和其他人工智能系统的潜在社会和经济影响的信息。影响思想。
构建可预测扩展的深度学习堆栈
GPT-4 项目的一大重点是构建可扩展的深度学习堆栈。主要原因是,对于像 GPT-4 这样的大型训练运行,广泛的特定于模型的调整是不可行的。开发的基础设施和优化在多个尺度上具有非常可预测的行为。
为了验证这种可扩展性,通过从使用相同方法训练的模型进行推断,但计算量减少了 1/10000,准确预测了 GPT-4 在其内部代码库(不是训练集的一部分)上的最终损失。 :
现在可以准确预测它在训练过程中优化的指标(损失),并开始开发预测更多可解释指标的方法,例如成功预测数据集子集的通过率,将计算量减少到 1/ 1000个原始Model的推论:
有些能力仍然难以预测。例如,该奖项是一场寻找随着模型计算负载增加而变得更差的指标的竞赛,获胜者之一就是其中之一。就像最近的另一个结果一样,GPT-4 扭转了这一趋势:
我们认为,机器学习准确预测未来的能力是安全的重要组成部分,但相对于其潜在影响,它并没有得到足够的重视。人们正在加紧努力开发方法,为社会提供关于未来系统的期望的更好指导,并希望这将成为该领域的共同目标。
开源软件框架 Evals
正在开源其软件框架 Evals,用于创建和运行基准来评估 GPT-4 等模型,同时逐个样本检查其性能。
使用 Evals 来指导模型的开发,用户可以应用该框架来跟踪模型版本(现在将定期发布)和不断发展的产品集成的性能。例如,它使用 Evals 来补充人工评估,以衡量基于 GPT 的文档工具的准确性。
由于代码是开源的,Evals 支持编写新类来实现自定义评估逻辑。但根据经验,许多基准测试都遵循少数“模板”之一,因此它们内部还包含最有用的模板(包括“模型排名评估”模板 - GPT-4 被发现在检查方面出人意料地出色)自己的作品强大)。通常构造新评估的最有效方法是实例化这些模板之一并提供数据。
我们希望 Evals 能够成为一种共享和众包基准的工具,代表最广泛的故障模式和困难任务。例如,创建了一个逻辑谜题评估,其中包含十个 GPT-4 失败提示。 Evals 还与现有基准兼容;有一些笔记本实现学术基准的示例,以及一些集成 CoQA(一小部分)的变体。
邀请每个人使用 Evals 来测试他们的模型,提交最有趣的示例,并留下贡献、问题和反馈。
扩展深度学习的最新里程碑
GPT-4 是扩展深度学习道路上的最新里程碑。期望 GPT-4 成为一种有价值的工具,通过为许多应用程序提供支持来改善生活。
如前所述,未来还有很多工作要做,需要社区的集体努力,在模型的基础上进行构建、探索和贡献,以继续使模型变得越来越强大。
参考:
//gpt-…//gp… |
|