微软新出热乎论文：Transformer扩张到10亿token

当大家抑制升级迭代自家大模子的时候，LLM（大言语模子）对高下文窗口的处理武艺，也成为一个关键评估办法。

比如明星大模子GPT-4援助32ktoken，十分于50页的笔墨；OpenAI前成员创立的Anthropic更是将Claude处理token武艺晋升到100k，约75000个单词，梗概十分于一键回想《哈利波特》第一部。在微软最新的一项参议中，他们此次胜利将Transformer扩张到10亿token。

这为建模相配长的序列开荒了新的可能性，举例将悉数语料库致使悉数互联网视为一个序列。

当作比较，庸碌东谈主不错在5小时傍边的技术里阅读100,000个token，并可能需要更长的技术来消化、操心和分析这些信息。

Claude不错在不到1分钟的技术里完成这些。如若换算成微软的这项参议，将会是一个惊东谈主的数字。

论文地址：

https://arxiv.org/pdf/2307.02486.pdf

方法地址：

https://github.com/microsoft/unilm/tree/master

具体而言，该参议刻薄了LONGNET，这是一种Transformer变体，不错将序列长度扩张到进步10亿个token，而不会祛除对较短序列的性能。

文中还刻薄了dilatedattention，它能指数级扩张模子感知范围。

LONGNET具有以下上风：

1）它具有线性诡计复杂性；

2）它不错当作较长序列的鉴别式熟谙器；

3）dilatedattention不错无缝替代法度贯注力，并不错与现存基于Transformer的优化方法无缝集成。

实验收尾标明，LONGNET在长序列建模和一般言语任务上王人发扬出很强的性能。在参议动机方面，论文暗示，最近几年，扩张神经网罗照旧成为一种趋势，好多性能精湛的网罗被参议出来。

在这当中，序列长度当作神经网罗的一部分，理念念情况下，其长度应该是无穷的。但履行却不绝相背，因而冲突序列长度的限度将会带来显赫的上风：

最初，它为模子提供了大容量的操心和感受野，使其能够与东谈主类和全国进行灵验的交互。其次，更长的高下文包含了更复杂的因果干系和推理旅途，模子不错在熟谙数据中加以讹诈。相背，较短的依赖干系则会引入更多失实的关联性，不利于模子的泛化性。第三，更长的序列长度不错匡助模子探索更长的高下文，况且极长的高下文也可匡助模子缓解恶运性渐忘问题。

可是，扩张序列长度靠近的主要挑战是在诡计复杂性和模子抒发武艺之间找到合适的均衡。

举例RNN作风的模子主要用于加多序列长度。可是，其序列特质限度了熟谙进程中的并行化，而并行化在长序列建模中是至关关键的。最近，状态空间模子对序列建模相配有蛊惑力，它不错在熟谙进程中当作CNN开动，并在测试时调遣为高效的RNN。

可是这类模子在旧例长度上的发扬不如Transformer。另一种扩张序列长度的方法是裁减Transformer的复杂性，即自贯注力的二次复杂性。现阶段，一些高效的基于Transformer的变体被刻薄，包括低秩贯注力、基于核的方法、下采样方法、基于检索的方法。

可是，这些方法尚未将Transformer扩张到10亿token的领域（参见图1）。

下表为不同诡计方法的诡计复杂度比较。N为序列长度，d为荫藏维数。

方法

该参议的惩处决策LONGNET告捷地将序列长度扩张到10亿个token。具体来说，该参议刻薄一种名为dilatedattention的新组件，并用dilatedattention取代了VanillaTransformer的贯注力机制。

通用的联想原则是贯注力的分派跟着token和token之间距离的加多而呈指数级着落。该参议标明这种联想方法获取了线性诡计复杂度和token之间的对数依赖性。

这就惩处了贯注力资源有限和可探问每个token之间的矛盾。在竣事进程中，LONGNET不错转动成一个密集Transformer，以无缝地援助针对Transformer的现存优化方法（举例内核会通（kernelfusion）、量化和鉴别式熟谙）。

讹诈线性复杂度的上风，LONGNET不错跨节点并行熟谙，用鉴别式算法冲突诡计和内存的敛迹。最终，该参议灵验地将序列长度扩大到1B个token，而且开动时（runtime）险些是恒定的，如下图所示。

比较之下，VanillaTransformer的开动时则会受到二次复杂度的影响。

该参议进一步引入了多头dilatedattention机制。

如下图3所示，该参议通过对查询-键-值对的不同部分进行寥落化，在不同的头之间进行不同的诡计。

鉴别式熟谙

固然dilatedattention的诡计复杂度照旧大幅裁减到，但由于诡计和内存的限度，在单个GPU成立上将序列长度扩张到百万级别是不成行的。有一些用于大领域模子熟谙的鉴别式熟谙算法，如模子并行[SPP+19]、序列并行[LXLY21,KCL+22]和pipeline并行[HCB+19]，可是这些方法对于LONGNET来说是不够的，超越是当序列维度相配大时。

该参议讹诈LONGNET的线性诡计复杂度来进行序列维度的鉴别式熟谙。

下图4展示了在两个GPU上的鉴别式算法，还不错进一步扩张到落拓数目的成立。

实验

该参议将LONGNET与vanillaTransformer和寥落Transformer进行了比较。架构之间的互异是贯注力层，而其他层保执不变。

参议东谈主员将这些模子的序列长度从2K扩张到32K，与此同期减小batch大小，以保证每个batch的token数目不变。

表2回想了这些模子在Stack数据集上的收尾。参议使用复杂度当作评估办法。

这些模子使用不同的序列长度进行测试，范围从2k到32k不等。当输入长度进步模子援助的最大长度时，参议竣事了分块因果贯注力（blockwisecausalattention，BCA）[SDP+22]，这是一种早先进的用于言语模子推理的外推方法。此外，参议删除了齐备位置编码。

最初，收尾标明，在熟谙进程中加多序列长度一般会得到更好的言语模子。其次，在长度苍劲于模子援助的情况下，推理中的序列长度外推法并不适用。

终末，LONGNET一直优于基线模子，阐述注解了其在言语建模中的灵验性。

序列长度的扩张弧线

图6绘图了vanillatransformer和LONGNET的序列长度扩张弧线。该参议通过诡计矩阵乘法的总flops来估量诡计量。

收尾标明，vanillatransformer和LONGNET王人能从熟谙中获取更大的高下文长度。

可是，LONGNET不错更灵验地扩张高下文长度，以较小的诡计量竣事较低的测试耗费。这阐述注解了较长的熟谙输入比外推法更具有上风。实验标明，LONGNET是一种更灵验的扩张言语模子中高下文长度的方法。这是因为LONGNET不错更灵验地学习较长的依赖干系。

扩张模子领域

大型言语模子的一个关键属性是：耗费跟着诡计量的加多呈幂律扩张。为了考证LONGNET是否仍然效力访佛的扩张律例，该参议用不同的模子领域（从1.25亿到27亿个参数）熟谙了一系列模子。

27亿的模子是用300B的token熟谙的，而其余的模子则用到了大要400B的token。图7(a)绘图了LONGNET对于诡计的扩张弧线。该参议在相似的测试集上诡计了复杂度。

这阐述注解了LONGNET仍然不错效力幂律。这也就意味着denseTransformer不是扩张言语模子的先决条件。此外，可扩张性和收尾王人是由LONGNET获取的。

长高下文prompt

Prompt是调换言语模子并为其提供稀少信息的关键方法。

该参议通过实验来考证LONGNET是否能从较长的高下文领导窗口中获益。

该参议保留了一段前缀（prefixes）当作prompt，并测试后来缀（suffixes）的困惑度。

况且，参议进程中，迟缓将prompt从2K扩张到32K。为了进行自制的比较，保执后缀的长度不变，而将前缀的长度加多到模子的最大长度。

图7(b)诠释了测试集上的收尾。它标明，跟着高下文窗口的加多，LONGNET的测试耗费迟缓减少。这阐述注解了LONGNET在充分讹诈长语境来改造言语模子方面的优胜性。

本文起原：机器学习参议组订阅，原标题：《微软新出热乎论文：Transformer扩张到10亿token》

风险领导及免责条目市集有风险，投资需严慎。本文不组成个东谈主投资建议，也未计议到个别用户颠倒的投资标的、财务气象或需要。用户应试虑本文中的任何认识、不雅点或论断是否适应其特定气象。据此投资，牵累气象。