苹果研究人员推出 ByteFormer,这是一种仅消耗字节且不显式模拟输入模式的 AI 模型
深度学习推理通常基于输入模态的显式建模。 例如,视觉变换器 (ViT) 通过将图像块编码为向量来直接对图像的 2D 空间组织进行建模。 音频推断通常基于计算频谱属性(如 MFCC),然后将其传输到网络中。 如图 1 所示,用户必须首先将文件解码为模态特定表示形式(例如 RGB 张量或 MFCC),然后再推断保存的文件(例如 JPEG 音频或图像文件)。 将输入解码为特定于模态的表示有两个主要缺点。
首先,您必须为每种输入模式手动创建输入表示形式。 Transformer 主干已在 PerceiverIO、UnifiedIO 等最近的项目中使用。 然而,这些技术需要特定于模态的预处理。 例如,PerceiverIO 在将图片文件发送到网络之前对其进行解码。 PerceiverIO 将其他输入模式转换为不同的形式。 作者假设,通过直接在文件字节上执行推理,可以消除特定于模态的预处理。 将输入解码为特定于模态的表示有第二个缺点,即所分析的材料会被暴露。
想象一下您家中有一个智能小工具,它依靠 RGB 照片进行推理。 如果敌人可以访问模型输入,则可能会损害用户的隐私。 他们认为可以对保护隐私的投入进行扣除。 为了解决这些问题,他们指出许多输入模式可以保存为文件字节。 他们在推理过程中将文件字节直接输入到模型中(图 1b),无需解码。 他们采用修改后的 Transformer 模型来适应各种输入和模式。
来源和详细信息:

