今天,我们很高兴推出 LLaVA-1.6,它具有改进的推理、OCR 和世界知识。LLaVA-1.6 在多项基准测试中甚至超过了 Gemini Pro。
与LLaVA-1.5相比,LLaVA-1.6有几个改进:
除了性能改进之外,LLaVA-1.6 保持了 LLaVA-1.5 的极简设计和数据效率。它重新使用了 LLaVA-1.5 的预训练连接器,并且仍然使用不到 1M 的视觉指令调优样本。最大的 34B 型号在大约 1 天内完成了 32 架 A100 的训练。代码、数据、模型将公开。
我们开源LLaVA-1.6,以促进LMM在社区的未来发展。代码、数据、模型将公开。
开源 所有权
数据(PT)数据(信息技术)模型MMMU(有效值)数学VistaMMB-ENGMMB-CNMM-兽医LLaVA-狂野种子IMG不适用不适用GPT-4V56.849.975.873.967.6-71.6不适用不适用双子座超59.453-----不适用不适用双子座专业版47.945.273.674.364.3-70.71.4B50公尺Qwen-VL-Plus45.243.3--55.7-65.71.5B5.12MCogVLM-30B32.1---56.8--125M〜1M易-VL-34B45.9------558K665KLLaVA-1.5-13B36.427.667.863.336.372.568.2558K760KLLaVA-1.6-34B51.146.579.37957.489.675.9
✨亮点:
马克·扎克伯格谈论 Llama-3 和 600K H100

根据航班信息什么时候出发去接机?

我们详细介绍了我们对 LLaVA-1.5 的发现和改进。更多实施细节将在未来几天发布并记录在此处。
我们以高分辨率设计模型,旨在保持其数据效率。当提供高分辨率图像和保留这些细节的表示时,模型感知图像中复杂细节的能力会显着提高。它减少了面对低分辨率图像时猜测想象的视觉内容的模型幻觉。我们的“AnyRes”技术旨在适应各种高分辨率的图像。我们采用网格配置{ 2 × 2 , 1 × { 2 , 3 , 4 } , { 2 , 3 , 4 } × 1 }
{2×2,1×{2,3,4},{2,3,4}×1},平衡性能效率与运营成本。有关更多详细信息,请参阅我们更新的 LLaVA-1.5 技术报告。

动态高分辨率方案的图示:网格配置2 × 2
2
×
2
除了Vicuna-1.5(7B和13B)之外,我们还考虑更多的LLM,包括Mistral-7B和Nous-Hermes-2-Yi-34B。这些法学硕士拥有良好的性质、灵活的商业使用条款、强大的双语支持和更大的语言模型容量。它让LLaVA能够支持社区更广泛的用户和更多的场景。LLaVA 配方适用于各种 LLM,并且可以顺利扩展到 34B 的 LLM。
姓名LLaVA-1.6-7BLLaVA-1.6-13BLLaVA-1.6-34B型号尺寸全部的7.06B13.35B34.75B视觉编码器303.5M303.5M303.5M连接器21M31.5M58.7M法学硕士6.74B13B34.39B解决336 x [(2,2), (1,2), (2,1), (1,3), (3,1), (1,4), (4,1)]阶段1训练数据558K可训练模块连接器第二阶段训练数据760K可训练模块全模型计算(#GPU x #Hours)8x2016x2432x30训练数据(#Samples)1318K

(部分工作在微软研究院完成)
(与字节跳动/TikTok合作)
(与字节跳动/TikTok合作)

@misc{liu2024llava16,
title={LLaVA-1.6: Improved reasoning, OCR, and world knowledge},
url={https://llava-vl.github.io/blog/2024-01-30-llava-1-6/},
author={Liu, Haotian and Li, Chunyuan and Li, Yuheng and Li, Bo and Zhang, Yuanhan and Shen, Sheng and Lee, Yong Jae},
month={January},
year={2024}
}
@misc{liu2023improvedllava,
title={Improved Baselines with Visual Instruction Tuning},
author={Liu, Haotian and Li, Chunyuan and Li, Yuheng and Lee, Yong Jae},
publisher={arXiv:2310.03744},
year={2023},
}
@misc{liu2023llava,
title={Visual Instruction Tuning},
author={Liu, Haotian and Li, Chunyuan and Wu, Qingyang and Lee, Yong Jae},
publisher={NeurIPS},
year={2023},
}