当前位置:首页  音频新闻  硬件新闻  音频新闻音频正文

认识 MovieChat:集成视频基础模型和大型语言模型的创新视频理解系统

发布时间:08-05 编辑:音频应用

大型语言模型(LLM)最近在自然语言处理(NLP)领域取得了长足的进步。向LLM添加多模态并将其转化为可以执行多模态感知和解释的多模态大语言模型(MLLM)是一个合乎逻辑的步骤。

作为通向通用人工智能 (AGI) 的可能步骤,MLLM 在各种多模态任务中展示了惊人的新兴技能,例如感知(例如,存在、计数、位置、OCR)、常识推理和代码推理。与 LLM 和其他特定任务模型相比,MLLM 提供了更加人性化的环境视角、用户友好的交互界面以及更广泛的任务解决技能。 


现有的以视觉为中心的 MLLM 使用 Q-former 或基本投影层、预先训练的 LLM、视觉编码器和额外的可学习模块。另一种范式通过 API 将当前的视觉感知工具(例如跟踪和分类)与法学硕士结合起来,构建一个无需培训的系统。视频领域的一些早期研究使用这种范例开发了视频 MLLM。然而,从未对基于长电影(持续时间超过一分钟)的模型或系统进行过任何调查,也从未制定衡量这些系统有效性的标准。 


在这项研究中,来自浙江大学、华盛顿大学、微软亚洲研究院和香港大学的研究人员介绍了 MovieChat,这是一个将视觉模型与法学硕士相结合的解决冗长视频解释挑战的独特框架。他们认为,扩展视频理解的剩余困难包括计算难度、内存消耗和长期时间链接。为此,他们提出了一种基于阿特金森-希夫林记忆模型的记忆系统,该模型需要快速更新的短期记忆和紧凑、持久的记忆。 



这个独特的框架将视觉模型与法学硕士相结合,是第一个支持扩展视频理解任务的框架。本工作总结如下。他们进行严格的定量评估和案例研究,以评估理解能力和推理成本的表现,并提供一种内存机制,以最大限度地降低计算复杂性和内存成本,同时改善长期时间链接。这项研究的结论是提出了一种理解视频的新颖方法,该方法将巨大的语言模型与视频基础模型相结合。 

该系统通过包含受阿特金森-希弗林模型启发的记忆过程解决了分析长片的困难,该记忆过程由变形金刚中的标记代表的短期和长期记忆组成。建议的系统 MovieChat 通过在扩展视频理解方面实现最先进的性能,优于以前只能处理包含几帧的电影的算法。该方法解决长期时间关系,同时降低内存使用和计算复杂性。这项工作强调了记忆过程在视频理解中的作用,它允许模型长时间存储和回忆相关信息。MovieChat 的流行对各行业产生了实际影响,包括内容分析、视频推荐系统和视频监控。未来的研究可能会寻找加强记忆系统的方法,并使用包括音频在内的其他方式来提高视频理解力。这项研究为需要彻底理解视觉数据的应用程序创造了可能性。他们的网站有多个演示。


立即咨询低价
您可以根据下列意向选择快捷留言

我对产品很感兴趣,请尽快联系我!

请问我所在的地区有商家吗?

我想详细了解购买流程!

购买该产品享受八折优惠,还能得到技术支持?

我想购买请电话联系我!

购买所需要的费用有哪些?

产品很好,请尽快联系我详谈!

*姓名:
*电话:
留言:
*验证码:

声明:该文观点仅代表作者本人,音频应用发布平台仅提供信息存储空间服务。加微信:254969084带你进群学习!百家号免费发布

最新音频交流