07/03/202307/06/2023 由lausm

ByteFormer 是一种人工智能模型，可以消除输入模态预处理并增强用户隐私。

苹果研究人员推出 ByteFormer，这是一种仅消耗字节且不显式模拟输入模式的 AI 模型

深度学习推理通常基于输入模态的显式建模。例如，视觉变换器 (ViT) 通过将图像块编码为向量来直接对图像的 2D 空间组织进行建模。音频推断通常基于计算频谱属性（如 MFCC），然后将其传输到网络中。如图 1 所示，用户必须首先将文件解码为模态特定表示形式（例如 RGB 张量或 MFCC），然后再推断保存的文件（例如 JPEG 音频或图像文件）。将输入解码为特定于模态的表示有两个主要缺点。

首先，您必须为每种输入模式手动创建输入表示形式。 Transformer 主干已在 PerceiverIO、UnifiedIO 等最近的项目中使用。然而，这些技术需要特定于模态的预处理。例如，PerceiverIO 在将图片文件发送到网络之前对其进行解码。 PerceiverIO 将其他输入模式转换为不同的形式。作者假设，通过直接在文件字节上执行推理，可以消除特定于模态的预处理。将输入解码为特定于模态的表示有第二个缺点，即所分析的材料会被暴露。

想象一下您家中有一个智能小工具，它依靠 RGB 照片进行推理。如果敌人可以访问模型输入，则可能会损害用户的隐私。他们认为可以对保护隐私的投入进行扣除。为了解决这些问题，他们指出许多输入模式可以保存为文件字节。他们在推理过程中将文件字节直接输入到模型中（图 1b），无需解码。他们采用修改后的 Transformer 模型来适应各种输入和模式。

来源和详细信息：

Apple Researchers Introduce ByteFormer: An AI Model That Consumes Only Bytes And Does Not Explicitly Model The Input Modality

相关

发表回复取消回复