【Arxiv 大模型最新进展】LLaVA-Mini:压缩至一个视觉token,高效计算与实时响应的多模态大模型

news/2025/2/3 4:43:32 标签: 人工智能, 大模型

【Arxiv 大模型最新进展】LLaVA-Mini:压缩至一个视觉token,高效计算与实时响应的多模态大模型

LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token

Shaolei Zhang, Qingkai Fang等

中国科学院智能信息处理重点实验室, 中国科学院计算技术研究所等

本文提出了LLaVA-Mini,通过对多模态大模型注意力矩阵的逐层分析,发现视觉token主要在模型的前几层被利用,基于这一发现,文章引入了模态预融合技术,将视觉信息提前融入文本token,将输入LLM主干的视觉token压缩至一个token。

研究内容

多模态大模型的视觉token压缩

研究动机

现有方法表现不佳:现有方法依赖于预定义规则来减少视觉编码器输出的token数量,或专注于LLM主干小型化,或者其他方法,仍会导致视觉信息的大量丢失。

技术动机

多模态大模型是如何理解视觉token的?

通过提出这一疑问,本文对模型进行逐层分析,发现视觉token主要在模型的前几层被利用,随着层级的加深,关注视觉token的注意力急剧减少。

解决方案

基于上面的发现——视觉token在模型的浅层中对融合视觉信息至关重要,LLaVA-Mini在LLM主干网络之前引入了一个模态预融合模块,将视觉信息提前融合到文本token中。下面分别介绍LLaVA-Mini的两个重要模块,视觉token压缩模块和模态预融合模块

视觉token压缩模块

LLaVA-Mini 引入了 C × C C \times C C×C可学习的压缩查询 Q v Q_v Qv。这些查询通过交叉注意力与所有视觉token H v H_v Hv进行交互,选择性地提取重要的视觉信息,生成 C × C C \times C C×C压缩的视觉token H ^ v ∈ R C 2 × d h \hat{H}_v \in \mathbb{R}^{C_2 \times d_h} H^vRC2×dh。为了在压缩过程中保留图像的空间信息,我们对可学习查询和原始视觉token引入了2D正弦位置编码。

模态预融合模块

模态预融合模块 f ( ⋅ ) f(\cdot) f() N fusion N_{\text{fusion}} Nfusion 个Transformer块组成,每个Transformer块与LLM骨干网络共享相同的结构和超参数。视觉token H v H_v Hv和文本token H q H_q Hq被连接并输入到预融合模块中,然后提取与文本相关的视觉信息作为融合token,表示为:

H ^ q = f ( Concat ( H v , H q ) ) [ − l q : ] \hat{H}_q = f(\text{Concat}(H_v, H_q))[-l_q:] H^q=f(Concat(Hv,Hq))[lq:]

其中 H ^ q ∈ R l q × d h \hat{H}_q \in \mathbb{R}^{l_q \times d_h} H^qRlq×dh是包含相关视觉信息的文本表示的融合token。

最终,压缩后的视觉token H ^ v \hat{H}_v H^v和融合token H ^ q \hat{H}_q H^q(共 C 2 + l q C_2 + l_q C2+lq个token)一起输入到LLM中,以生成响应。

实验结果

本文在图像和视频理解任务上评估LLaVA-Mini,为了公平比较,采用与LLaVA-v1.5相同的配置。分为两个配置LLaVA-Mini-HD-压缩至64个token,LLaVA-Mini-压缩为一个token。实验在11个图像基准和7个视频基准上进行,实验结果分别如下:

综上,本文推出了LLaVA-Mini,结合模态预融合模块高效压缩视觉token。LLaVA-Mini在图像和视频理解方面表现出色,同时在计算效率、推理延迟和内存使用方面具有优势。


  • 查看 Arxiv 原文请点击"阅读原文"[https://arxiv.org/abs/2410.10630v1]
  • 更多大模型学习资料,详见浙江大学LLMs Github仓库:
    https://github.com/ZJU-LLMs/Foundations-of-LLMs
  • 本文编辑:胡中豪,毛玉仁

http://www.niftyadmin.cn/n/5840484.html

相关文章

SpringCloud系列教程:微服务的未来(十九)请求限流、线程隔离、Fallback、服务熔断

前言 前言 在现代微服务架构中,系统的高可用性和稳定性至关重要。为了解决系统在高并发请求或服务不可用时出现的性能瓶颈或故障,常常需要使用一些技术手段来保证服务的平稳运行。请求限流、线程隔离、Fallback 和服务熔断是微服务中常用的四种策略&…

云中漫步:精工细作铸就免费公益刷步平台

云中漫步,历经三年深度研发与优化,平台以高稳定性、零成本及公益属性为核心特色,依托前沿技术手段与多重安全防护机制,确保用户步数数据的精准修改与隐私安全。我们致力于提供无缝流畅的用户体验,让每一次步数更新都轻…

Python字典详解:从入门到实践

Python字典详解:从入门到实践 字典(Dictionary)是Python中最重要且最常用的数据结构之一。本文将深入讲解字典的特性、操作方法和实际应用案例。 1. 字典简介 字典是可变的、无序的键值对集合,使用{}创建。每个元素由key: valu…

编程AI深度实战:大模型知识一文打尽

系列文章: 编程AI深度实战:私有模型deep seek r1,必会ollama-CSDN博客 编程AI深度实战:自己的AI,必会LangChain-CSDN博客 编程AI深度实战:给vim装上AI-CSDN博客 编程AI深度实战:火的编程AI&…

9.2k star!PiliPala一个第三方B站客户端!

软件介绍 链接 PiliPala一个在Github上收获9.2k star的开源第三方bilibili客户端,支持安卓和ios端安装使用。应用界面简洁无广、除核心功能外无任何冗余功能和服务,让我们可以尽情的享受内容带给我们的快乐。 基础的功能如登录、点赞收藏、评论、关注、…

手写单层RNN网络,后续更新

文章目录 1. 原理2. pytorch 源码,只是测试版,后续持续优化 1. 原理 根据如下公式,简单的手写实现单层的RNN神经网络,加强代码功能和对网络的理解能力 2. pytorch 源码,只是测试版,后续持续优化 import…

DeepSeek的提示词使用说明

一、DeepSeek概述 DeepSeek是一款基于先进推理技术的大型语言模型,能够根据用户提供的简洁提示词生成高质量、精准的内容。在实际应用中,DeepSeek不仅能够帮助用户完成各类文案撰写、报告分析、市场研究等工作,还能够生成结构化的内容&#…

动手学强化学习(四)——蒙特卡洛方法

一、蒙特卡洛方法 蒙特卡洛方法是一种无模型(Model-Free)的强化学习算法,它通过直接与环境交互采样轨迹(episodes)来估计状态或动作的价值函数(Value Function),而不需要依赖环境动态…