发布于 : Apr 03, 2024
不在本期内容中
这一条目不在当前版本的技术雷达中。如果它出现在最近几期中,那么它很有可能仍然具有相关参考价值。如果这一条目出现在更早的雷达中,那么它很有可能已经不再具有相关性,我们的评估将不再适用于当下。很遗憾我们没有足够的带宽来持续评估以往的雷达内容。
了解更多
Apr 2024
评估
LLaVA(Large Language and Vision Assistant) 是一个开源的大型多模态模型,它结合了视觉编码器和大语言模型,用于通用视觉和语言理解。LLaVA 在遵循指令方面的强大能力,使其成为多模态人工智能模型中的有力竞争者。最新版本,LLaVA-NeXT,能进一步提升问答能力。在开源的语言和视觉辅助模型中,与GPT-4 Vision相比,LLaVA 是一个很有前景的选择。我们的团队一直在使用它进行视觉问题解答。