Fuyu-8B：A Multimodal Architecture for AI Agents

Transformer一作Ashish Vaswani所在的AI公司Adept，发布了Fuyu-8B，这是一个多模态模型的小版本，为其产品赋能。Fuyu-8B的特点包括：

（1）具有比其他多模态模型更简单的架构和训练程序；

（2）从头开始为数字助手设计，支持任意图像分辨率，能够回答关于图表和图形的问题，并在屏幕图像上进行精细的定位；

（3）响应速度快，对于大图像的响应时间不到100毫秒；

（4) 尽管针对特定用例进行了优化，但在标准的图像理解基准测试中表现良好。

方法

模型架构： Adept致力于为知识工作者构建一个普遍智能的助手。为了实现这一目标，模型需要能够理解用户的上下文并代表用户采取行动。Fuyu的架构是一个普通的Decoder-only变压器，没有图像编码器。图像块直接线性投影到变压器的第一层。

从Huggingface中可以看到如下：

.......      
self.vision_embed_tokens = nn.Linear(
          config.patch_size * config.patch_size * config.num_channels, config.hidden_size
      )
....

patch_embeddings = self.vision_embed_tokens(image_patches.to(self.vision_embed_tokens.weight.dtype))

性能评估： 为了检查Fuyu-8B的架构变化，选择了四个最常用的图像理解数据集进行评估。Fuyu模型在这些指标上表现良好，不过这些数据集主要关注自然图像，和我们实际场景有所不同。