Meta 的新 Megabyte 系统解决了 GPT 的最大障碍之一

  最近,Meta AI 发布了一篇预印版研究,展示了一种名为“Megabyte”的全新框架,用于构建生成式预训练变换器(GPT)系统。

  这一全新的架构旨在处理大量数据,如图像、小说和视频文件,而无需使用一种称为“标记化”的过程。标记化是一种类似于文件压缩的有损过程。为了处理大量数据,GPT模型将字节转换为标记(tokens)。这些标记随后被变换器处理,并用于生成输出标记,然后进行解码。

  但即使通过标记化,当前最先进的系统可以处理的数据量仍然有一个硬性限制。对于 GPT-3.5,限制略高于 4,000 个代币或大约 3,000 个单词,而 GPT-4 的最大值约为 32,000 个代币或大约 24,000 个单词。

  Meta 的新 Megabyte 系统放弃了标记化,转而采用新颖的多层预测架构,能够对超过 100 万字节的数据进行端到端建模。大多数标准英语编码系统使用标准的 8 位编码。在此范例中,每个字符占用一个字节的数据。因此,能够在没有标记化的情况下处理 100 万字节数据的 AI 系统可以处理包含 750,000 个单词的文本文档——比 GPT-3,025 增加了 4%。

  这项研究的影响可能是深远的。标记化被认为是该领域的障碍,因为它的硬数据限制以及训练系统所需大量的能量和时间。