微软新出热乎论文：Transformer推广到10亿token

当大家束缚升级迭代自家大模子的技能，LLM（大谈话模子）对凹凸文窗口的处贤达商，也成为一个伏击评估方向。

比如明星大模子GPT-4援助32ktoken，超过于50页的笔墨；OpenAI前成员创立的Anthropic更是将Claude处理token智商升迁到100k，约75000个单词，约略超过于一键纪念《哈利波特》第一部。在微软最新的一项盘问中，他们此次径直将Transformer推广到10亿token。

这为建模相称长的序列开导了新的可能性，举例将统统语料库以至统统互联网视为一个序列。

当作比较，平凡东谈主不错在5小时傍边的时分里阅读100,000个token，并可能需要更长的时分来消化、挂牵和分析这些信息。

Claude不错在不到1分钟的时分里完成这些。如果换算成微软的这项盘问，将会是一个惊东谈主的数字。

论文地址：

https://arxiv.org/pdf/2307.02486.pdf

方法地址：

https://github.com/microsoft/unilm/tree/master

具体而言，该盘问提倡了LONGNET，这是一种Transformer变体，不错将序列长度推广到起初10亿个token，而不会殉国对较短序列的性能。

文中还提倡了dilatedattention，它能指数级推广模子感知边界。

LONGNET具有以下上风：

1）它具有线性狡计复杂性；

2）它不错当作较长序列的散布式老练器；

3）dilatedattention不错无缝替代程序肃肃力，并不错与现存基于Transformer的优化措施无缝集成。

实验结束标明，LONGNET在长序列建模和一般谈话任务上王人进展出很强的性能。在盘问动机方面，论文暗示，最近几年，推广神经网罗也曾成为一种趋势，好多性能精湛的网罗被盘问出来。

在这当中，序列长度当作神经网罗的一部分，理念念情况下，其长度应该是无穷的。但本质却往往相背，因而突破序列长度的放弃将会带来显赫的上风：

起初，它为模子提供了大容量的挂牵和感受野，使其能够与东谈主类和寰球进行有用的交互。其次，更长的凹凸文包含了更复杂的因果关系和推理旅途，模子不错在老练数据中加以行使。相背，较短的依赖关系则会引入更多失误的关系性，不利于模子的泛化性。第三，更长的序列长度不错匡助模子探索更长的凹凸文，而且极长的凹凸文也可匡助模子缓解糟糕性淡忘问题。

但是，推广序列长度濒临的主要挑战是在狡计复杂性和模子抒发智商之间找到合适的均衡。

举例RNN立场的模子主要用于增多序列长度。但是，其序列特色放弃了老练经过中的并行化，而并行化在长序列建模中是至关伏击的。最近，状态空间模子对序列建模相称有劝诱力，它不错在老练经过中当作CNN初始，并在测试时调整为高效的RNN。

但是这类模子在老例长度上的进展不如Transformer。另一种推广序列长度的措施是镌汰Transformer的复杂性，即自肃肃力的二次复杂性。现阶段，一些高效的基于Transformer的变体被提倡，包括低秩肃肃力、基于核的措施、下采样措施、基于检索的措施。

但是，这些措施尚未将Transformer推广到10亿token的边界（参见图1）。

下表为不同狡计措施的狡计复杂度比较。N为序列长度，d为袒护维数。

措施

该盘问的料理有绸缪LONGNET收效地将序列长度推广到10亿个token。具体来说，该盘问提倡一种名为dilatedattention的新组件，并用dilatedattention取代了VanillaTransformer的肃肃力机制。

通用的瞎想原则是肃肃力的分派跟着token和token之间距离的增多而呈指数级下跌。该盘问标明这种瞎想措施获取了线性狡计复杂度和token之间的对数依赖性。

这就料理了肃肃力资源有限和可侦察每个token之间的矛盾。在收尾经过中，LONGNET不错鼎新成一个密集Transformer，以无缝地援助针对Transformer的现存优化措施（举例内核和会（kernelfusion）、量化和散布式老练）。

行使线性复杂度的上风，LONGNET不错跨节点并行老练，用散布式算法突破狡计和内存的拘谨。最终，该盘问有用地将序列长度扩大到1B个token，而且初始时（runtime）险些是恒定的，如下图所示。

比拟之下，VanillaTransformer的初始时则会受到二次复杂度的影响。

该盘问进一步引入了多头dilatedattention机制。

如下图3所示，该盘问通过对查询-键-值对的不同部分进行寥落化，在不同的头之间进行不同的狡计。

散布式老练

天然dilatedattention的狡计复杂度也曾大幅镌汰到，但由于狡计和内存的放弃，在单个GPU配置上将序列长度推广到百万级别是不能行的。有一些用于大边界模子老练的散布式老练算法，如模子并行[SPP+19]、序列并行[LXLY21,KCL+22]和pipeline并行[HCB+19]，但是这些措施对于LONGNET来说是不够的，超过是当序列维度相称大时。

该盘问行使LONGNET的线性狡计复杂度来进行序列维度的散布式老练。

下图4展示了在两个GPU上的散布式算法，还不错进一步推广到苟且数目的配置。

实验

该盘问将LONGNET与vanillaTransformer和寥落Transformer进行了比较。架构之间的各异是肃肃力层，而其他层保握不变。

盘问东谈主员将这些模子的序列长度从2K推广到32K，与此同期减小batch大小，以保证每个batch的token数目不变。

表2纪念了这些模子在Stack数据集上的结束。盘问使用复杂度当作评估方向。

这些模子使用不同的序列长度进行测试，边界从2k到32k不等。当输入长度起初模子援助的最大长度时，盘问收尾了分块因果肃肃力（blockwisecausalattention，BCA）[SDP+22]，这是一种起先进的用于谈话模子推理的外推措施。此外，盘问删除了统统位置编码。

起初，结束标明，在老练经过中增多序列长度一般会得到更好的谈话模子。其次，在长度宏大于模子援助的情况下，推理中的序列长度外推法并不适用。

临了，LONGNET一直优于基线模子，诠释了其在谈话建模中的有用性。

序列长度的推广弧线

图6绘图了vanillatransformer和LONGNET的序列长度推广弧线。该盘问通过狡计矩阵乘法的总flops来臆测狡计量。

结束标明，vanillatransformer和LONGNET王人能从老练中获取更大的凹凸文长度。

但是，LONGNET不错更有用地推广凹凸文长度，以较小的狡计量收尾较低的测试亏空。这诠释了较长的老练输入比外推法更具有上风。实验标明，LONGNET是一种更有用的推广谈话模子中凹凸文长度的措施。这是因为LONGNET不错更有用地学习较长的依赖关系。

推广模子边界

大型谈话模子的一个伏击属性是：亏空跟着狡计量的增多呈幂律推广。为了考证LONGNET是否仍然辞退雷同的推广轨则，该盘问用不同的模子边界（从1.25亿到27亿个参数）老练了一系列模子。

27亿的模子是用300B的token老练的，而其余的模子则用到了简约400B的token。图7(a)绘图了LONGNET对于狡计的推广弧线。该盘问在不异的测试集上狡计了复杂度。

这诠释了LONGNET仍然不错辞退幂律。这也就意味着denseTransformer不是推广谈话模子的先决条件。此外，可推广性和效果王人是由LONGNET获取的。

长凹凸文prompt

Prompt是不异谈话模子并为其提供极端信息的伏击措施。

该盘问通过实验来考证LONGNET是否能从较长的凹凸文指示窗口中获益。

该盘问保留了一段前缀（prefixes）当作prompt，并测试后来缀（suffixes）的困惑度。

而且，盘问经过中，安适将prompt从2K推广到32K。为了进行公谈的比较，保握后缀的长度不变，而将前缀的长度增多到模子的最大长度。

图7(b)呈文了测试集上的结束。它标明，跟着凹凸文窗口的增多，LONGNET的测试亏空安适减少。这诠释了LONGNET在充分行使长语境来改革谈话模子方面的优胜性。

本文起原：机器学习盘问组订阅，原标题：《微软新出热乎论文：Transformer推广到10亿token》

风险指示及免责条目商场有风险，投资需严慎。本文不组成个东谈主投资建议，也未研讨到个别用户特殊的投资方向、财务景况或需要。用户应试虑本文中的任何观念、不雅点或论断是否合适其特定景况。据此投资，背负知足。