找回密码
 立即注册
搜索
查看: 282|回复: 0

大语言模型综述文章持续扩充修订,内容质量不断提升

[复制链接]

2万

主题

0

回帖

6万

积分

管理员

积分
63502
发表于 2024-9-19 03:44:42 | 显示全部楼层 |阅读模式
今年三月底,我们在 arXiv 网站上发表了综述文章《A of Large》第一版 V1。这篇综述文章旨在系统地梳理大型语言模型的研究进展和核心技术,并讨论大量相关工作。这篇大型语言模型综述预印本自推出以来,就受到了众多读者的关注。我们正在努力推动这篇综述文章的不断扩充和修订。

自版本 1 发布以来的 8 个月里,我们不断更新相关内容,连续修订内容(版本号现已升级为 V13),以提高评审质量。论文篇幅从版本 1 的 51 页、416 篇参考文献增加到版本 11 的 85 页、610 篇参考文献,再到版本 12 的 97 页、683 篇参考文献,如今版本 13 已增至 124 页、946 篇参考文献。继 6 月和 9 月在 arXiv 网站上发布版本 V11 和 V12 的重大修订后,版本 V13 是我们两个多月来的又一次重大修订。

与V12相比,V13的大型语言模型概览有以下新亮点:

1.增加了法律方面的深入探讨;

2.增加了预训练数据调度的介绍以及从零开始准备大型模型预训练数据的步骤和细节;

3.增加了大模型增强长文本能力和解码策略的介绍;

4.增加了关于指令微调数据的最新工作介绍和人体对准中的过程监督技术介绍;

5.完善了指令微调的实验分析,在量化章节中增加了对指令微调模型进行量化的实验结果;

6、调整了部分部分的内容组织,增加了自动提示优化新章节并完善了思维链提示技术介绍;

7.增加了大型语言模型如何应用于不同研究方向(如多模态、智能代理、知识图谱等)的介绍;

8.增加了很多背景说明内容和大量最新著作介绍,增加或修改了大量插图、表格。

此外,我们评论的中文翻译目前为V10版本,我们将加快翻译进程,使其与英文版本保持一致:

论文链接:

项目链接:

中文翻译链接:

以下介绍一下该评测部分章节的主要更新内容,具体内容请参考我们的英文评测。

1. 概述

本章我们加入了对四代语言模型(统计语言模型、神经语言模型、预训练语言模型、大语言模型)演进过程的介绍和图解,对语言模型的理解可以从提升任务解决能力的角度进行深入剖析,这也是技术发展带来的重要思维范式转变。

章节中我们增加了对法则的深入讨论,主要集中在任务层面,以及一些关于法则和紧急能力的讨论。同时更新了 GPT 系列发展路径图,并增加了关于 GPT-4v 和 GPT-4 Turbo 的文字介绍。

2. 大型语言模型相关资源

我们补充了最新的符合条件的模型和API,并持续更新了现有的10B+个模型图和表格(如有遗漏,欢迎读者来信补充):

此外,我们增加了指令微调和对齐常用数据集及相关表格的介绍:



3.大型语言模型预训练技术

我们增加了数据调度(4.1.3节),主要包括数据混合(Data)和数据课程(Data)两部分。本章主要讨论在对多个来源的预训练数据进行预处理后,如何在训练时调整不同来源的数据比例,以及这些不同来源的数据用于训练的顺序,从而让大型模型在预训练阶段更快更好地提升通用能力或者增强特定能力。具体来说,在数据混合部分,我们总结了设置数据混合的常用策略;在数据课程部分,我们通过具体的例子进行分析,讨论现有的大型模型如何利用数据课程来提升其代码、数学和长文本建模能力。

在预训练数据介绍的最后,我们总结了预训练数据的准备工作(4.1.4节)。本章力求实用,从数据收集、数据清洗、数据调度三个方面串联了从零开始准备大型模型预训练数据的步骤和细节。

我们增加了关于长文本的子章节,介绍了位置编码和上下文窗口自适应对长文本的扩展。

此外,我们更新了解码策略章节,增加了近期的随机采样策略(如对比采样),同时系统介绍了解码阶段增量推理中存在的“内存墙”问题,并介绍了减少数据传输(如Flash-Net)和优化解码算法(如推测解码)两种策略。

4. 大语言模型适配技术

在指令微调部分,我们添加了最近的指令微调研究工作,例如格式化日常聊天数据集和格式化合成数据的复杂指令方法;我们还改进了关于指令微调是否需要更少或更多数据的讨论。

在人员对齐部分,我们增加了对过程监督技术的讨论,介绍了结果监督与过程监督对齐方法的区别、过程监督信号的收集和现有的相关数据集、过程监督信号的使用以及模型的训练方法。

在内存高效模型适配(即量化)部分,我们添加了16位、8位和4位量化下指令微调后的模型(7B、13B)的实验结果。

5. 使用大型语言模型的技术

在大型语言模型使用技巧章节中,我们对章节内容组织进行了较大幅度的调整,新增了一章提示技巧()。自动提示优化章节是新增内容,主要介绍离散提示优化(基于梯度、基于强化学习、基于编辑和基于大型模型的方法)和连续提示优化(充足数据的提示学习和稀疏数据的提示迁移方法)。

在思维链提示部分,我们增加了关于如何改进思维链提示技术的介绍,包括更好的提示设计、增强思维链生成(基于抽样和验证方法)、扩展推理结构(树、图),并增加了各种提示技术的对比图。

6. 大型语言模型的应用

在大型语言模型应用章节中,我们增加了对大型语言模型在研究界不同方向的应用介绍,包括大型语言模型应用的典型场景(典型的自然语言处理任务、信息检索、推荐系统)、能力增强(多模态、知识图谱)和新兴场景(智能代理、自动评测)。对于每个研究领域,我们分别讨论了大型语言模型在该领域的应用背景、典型方法、影响、未解决问题和未来的研究方向。这部分也是本次重要更新的内容,我们也加入了对这些研究方向的一些初步思考。

随后,我们还更新或重写了该章节的一些段落,以更好地组织未来研究的重点。

7. 概览定位

一篇高质量的长篇综述文章需要大量的时间投入,参与其中的老师和学生为此付出了很多心血。虽然我们已经尽力完善这篇综述文章,但由于我们的能力有限,难免有不足和错误,还有很大的改进空间。我们的最终目标是让这篇综述文章成为大模型的“know-how”技术指南手册,让大模型的秘密不再神秘,技术细节不再隐晦。虽然我们深知这篇综述距离这个目标还很远,但我们愿意在后续版本中尽最大努力加以改进。特别是对于预训练、指令微调、 的内在原理以及实践经验,我们非常欢迎读者为我们贡献想法和建议。您可以通过提交PR或电子邮件联系我们的作者。对于所有采纳的技术细节,我们将在论文致谢部分以“真实姓名+实际贡献”的方式致谢。

自我们的评测文章发布以来,我们收到了广大网友的大量修改意见,在这里表示感谢,也希望大家能够继续支持和关注我们的大型模型评测文章,你们的点赞和反馈将是我们前进的最大动力。

八、本次修订参加学生名单

周昆(新增NLP任务的LLM,新增图18)



李俊毅(补充自动提示优化方法介绍)

唐天翼(更新GPT发展路线图、更新解码策略章节、更新指令微调章节、增加量化实验)

王晓蕾(新增LLM基础Agent章节,修改思维链提示章节)

侯宇鹏(增加数据调度介绍,增加数据准备总结,增加图8)

闵英乾(在第三章增加了一些模型、数据和相关介绍,更新了表1、3、4和图2)

杨晨(更新表1、3、4,图2)

张北辰(新增LLM章节)

张俊杰(本章新增法学硕士)

陈宇硕(更新了解码策略部分,增加了量化实验)

陈志鹏(新增-RLHF内容)

蒋金浩(为法学硕士章节添加了 KG)

任瑞阳(新增 IR 章节的 LLM 学位)

唐新宇(更新了6.3节的结构和内容,增加了图14,以及cot部分)

刘培玉(增加定量实验与分析)

董子灿(补充了4.2.4的长段)

杜一帆(大模型篇新增训练部分)

李一凡(大模特篇新增测评部分)

刘子康(大模型篇新增改进模型部分)

附件:更新日志

第一章:增加图1,展示四代语言模型的演进过程;

第 2 章:增加了对扩展律以及突现能力与扩展律关系的讨论;增加了对 GPT-4v 和 GPT-4 Turbo 的介绍;

第3章:增加了图2和表格中最新的大型语言模型,增加了3.1节中最新API的介绍,增加了3.2节中指令微调和对齐微调常用的数据集的介绍,增加了3.3节中几个库的介绍;

第四章:增加了第 4.1 节中关于数据调度的讨论,包括数据混合和数据课程、第 4.2 节中关于数据准备的总结、第 4.3 节中关于长上下文建模的讨论以及第 4.4 节中关于解码效率问题和最先进的解码策略的讨论。

第五章:增加了5.1节中关于实例构造和调优策略的最新讨论、5.2节中关于过程监督的RLHF的最新讨论以及5.3节中关于量化LLaMA模型(7B和13B)的实证研究;

第六章:增加了6.1节关于提示优化的最新讨论,更新了6.3节关于思维链提示的内容;第七章:增加了7.1节关于语言大模型在不同研究方向的应用的最新讨论;

第八章:修改了几个方面。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|【远见汇智】 ( 京ICP备20013102号-17 )

GMT+8, 2025-5-5 09:18 , Processed in 0.303391 second(s), 20 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表