Meta无限长文本大模型震撼登场:参数仅7B,已开源,超越Transformer!

每日热点 2024-04-18 13:05 阅读:

近期,谷歌推出了Infini-Transformer模型,通过创新方法实现了大型语言模型对无限长输入的处理,无需增加额外内存和计算需求。这一突破性的技术让70亿参数的MEGALODON模型在与LLAMA2的对比试验中展现出了超越Transformer的效率优势,训练损失仅为1.70,介于LLAMA2-7B和13B之间。

一系列基准测试结果显示,MEGALODON在不同任务和模式中相对于传统Transformer模型有着显著的改进。在长上下文建模能力的评估中,MEGALODON展现出了处理无限长度序列的强大能力。此外,在多个小型基准测试中,MEGALODON在体量和多模态处理方面都表现出卓越性能。

实验结果显示,MEGALODON在长上下文序列建模的可扩展性和效率方面表现出色。在相同训练token下,MEGALODON-7B的负对数似然(NLL)优于LLAMA2-7B,显示出更高的数据效率。在处理长上下文时,MEGALODON-7B的速度明显快于LLAMA2-7B,证实了其在长上下文预训练中的计算效率优势。这一新型模型的出现,将为无限长文本处理领域带来全新的发展机遇。