头条资讯网_今日热点_娱乐才是你关心的时事

今日热点 时事资讯
娱乐头条才是你关心的新闻
首页 > 头条资讯 > 科技

“读懂”长视频,和你交流!谷歌发布AI模型:Mirasol3B

让AI学会看懂视频,通过文本进行对话是不是感觉应用场景很广宽?

在视频解说,视频总结等领域都会有广阔的前景!

虽然目前ChatGPT也能做到,但是总体效果还是差一点

最近,谷歌推出了一个能“看懂”视频的AI模型:Mirasol3B

AI为何很难“看懂”视频?

在现实生活应用构建AI模型时,构建多模态模型具有挑战性。一些模式可能在时间上很好地同步(例如,音频、视频),但与文本不对齐。

此外,视频和音频信号中的数据量比文本中的数据量大得多,因此当将它们组合成多模态模型时,视频和音频通常不能被充分消耗,并且需要不成比例地压缩。

对于较长的视频输入,这个问题会更加严重。这些问题就导致了训练能“看懂”视频的AI有些麻烦

Mirasol3B是什么?

Mirasol3B,是谷歌最近推出的一个AI模型,可以处理视频,并回答视频相关问题。Mirasol3B的推出,让多模态AI大模型能够处理长视频。

Mirasol3B是一个多模态自回归模型,它能够处理时间对齐的模态(如视频和音频),和非时间对齐的模态(如文本)。它的名字来源于西班牙语的“太阳花”,寓意着它能够像太阳一样,照亮多模态的领域。

Mirasol3B是如何做的?

Mirasol3B由三个主要的部分组成:

视频-音频自回归模型:这个部分负责处理时间对齐的模态,即视频和音频。它首先将视频和音频分割成一系列的片段,每个片段的长度为0.5秒。然后,它使用一个组合器(Combiner)来提取每个片段的视频和音频特征,并将它们融合成一个多模态的表示。最后,它使用一个变换器(Transformer)来自回归地处理这些多模态的表示,从而捕捉视频和音频之间的长期依赖关系。

文本自回归模型:这个部分负责处理非时间对齐的模态,即文本。它使用一个变换器(Transformer)来自回归地处理文本的特征,从而捕捉文本的语义和结构信息。

多模态融合模型:这个部分负责将视频-音频自回归模型和文本自回归模型的输出进行融合,从而得到一个全局的多模态的表示。它使用一个变换器(Transformer)来处理视频-音频和文本的特征,并使用一个交叉注意力(Cross-Attention)机制来实现不同模态之间的信息交互。

通过这样的结构,Mirasol3B能够充分利用不同模态的特点,同时实现不同模态的协同和互补。它能够在多模态的任务中,如视频-文本检索、音频-文本检索、视频-音频检索等,表现出惊人的效果。它能够在单模态的任务中,如图像分类、语音识别、自然语言理解等,也超越一些专门针对这些任务的模型。

Mirasol3B的性能

从表中可以看出,Mirasol3B在多模态的任务中,如视频-文本检索、音频-文本检索、视频-音频检索等,都取得了最好的结果。

Mirasol3B:不开源

Mirasol3B是闭源的,其详细信息只能通过Google博客文章和研究论文获取。

博客地址:

https://blog.research.google/2023/11/scaling-multimodal-understanding-to.html

论文地址:

https://arxiv.org/abs/2311.05698

未经允许不得转载:头条资讯网_今日热点_娱乐才是你关心的时事 » “读懂”长视频,和你交流!谷歌发布AI模型:Mirasol3B

分享到:更多 ()
来源:AI变革指南 编辑:科技

评论

留言/评论 共有条点评
昵称:
验证码:
匿名发表