“读懂”长视频，和你交流！谷歌发布AI模型：Mirasol3B-科技今日热点

让AI学会看懂视频，通过文本进行对话是不是感觉应用场景很广宽？

在视频解说，视频总结等领域都会有广阔的前景！

虽然目前ChatGPT也能做到，但是总体效果还是差一点

最近，谷歌推出了一个能“看懂”视频的AI模型：Mirasol3B

AI为何很难“看懂”视频？

在现实生活应用构建AI模型时，构建多模态模型具有挑战性。一些模式可能在时间上很好地同步（例如，音频、视频），但与文本不对齐。

此外，视频和音频信号中的数据量比文本中的数据量大得多，因此当将它们组合成多模态模型时，视频和音频通常不能被充分消耗，并且需要不成比例地压缩。

对于较长的视频输入，这个问题会更加严重。这些问题就导致了训练能“看懂”视频的AI有些麻烦

Mirasol3B是什么？

Mirasol3B，是谷歌最近推出的一个AI模型，可以处理视频，并回答视频相关问题。Mirasol3B的推出，让多模态AI大模型能够处理长视频。

Mirasol3B是一个多模态自回归模型，它能够处理时间对齐的模态（如视频和音频），和非时间对齐的模态（如文本）。它的名字来源于西班牙语的“太阳花”，寓意着它能够像太阳一样，照亮多模态的领域。

Mirasol3B是如何做的?

Mirasol3B由三个主要的部分组成：

视频-音频自回归模型：这个部分负责处理时间对齐的模态，即视频和音频。它首先将视频和音频分割成一系列的片段，每个片段的长度为0.5秒。然后，它使用一个组合器（Combiner）来提取每个片段的视频和音频特征，并将它们融合成一个多模态的表示。最后，它使用一个变换器（Transformer）来自回归地处理这些多模态的表示，从而捕捉视频和音频之间的长期依赖关系。

文本自回归模型：这个部分负责处理非时间对齐的模态，即文本。它使用一个变换器（Transformer）来自回归地处理文本的特征，从而捕捉文本的语义和结构信息。

多模态融合模型：这个部分负责将视频-音频自回归模型和文本自回归模型的输出进行融合，从而得到一个全局的多模态的表示。它使用一个变换器（Transformer）来处理视频-音频和文本的特征，并使用一个交叉注意力（Cross-Attention）机制来实现不同模态之间的信息交互。

通过这样的结构，Mirasol3B能够充分利用不同模态的特点，同时实现不同模态的协同和互补。它能够在多模态的任务中，如视频-文本检索、音频-文本检索、视频-音频检索等，表现出惊人的效果。它能够在单模态的任务中，如图像分类、语音识别、自然语言理解等，也超越一些专门针对这些任务的模型。

Mirasol3B的性能

从表中可以看出，Mirasol3B在多模态的任务中，如视频-文本检索、音频-文本检索、视频-音频检索等，都取得了最好的结果。

Mirasol3B：不开源

Mirasol3B是闭源的，其详细信息只能通过Google博客文章和研究论文获取。

博客地址：

https://blog.research.google/2023/11/scaling-multimodal-understanding-to.html

论文地址：

https://arxiv.org/abs/2311.05698

未经允许不得转载：头条资讯网_今日热点_娱乐才是你关心的时事 » “读懂”长视频，和你交流！谷歌发布AI模型：Mirasol3B

	西汉和东汉的首都在哪里？
	超10万点赞！重庆酒店总经理高颜值出圈，陈坤认领：我发小，帅！
	小红书在找“好榜样”
	反诈警察家属被骗走6000元，报案时笑称自己是送外卖的！
	离婚夫妻给2岁女儿过生日，男人一个举动，让女人决定复婚
	网易：第三季度净利润273亿，大模型赋能游戏！
	苹果遥遥无期、华为遥遥领先！苹果5G基带再次延期，2026年使用？
	华为悄然对新机提价，或因储存芯片涨价
	清朝妃子为何戴长指甲套？除了好看还有一原因，主要为了方便皇上
	男子打工存50万回村生活，吃饱就睡不找老婆，老了怎么办

头条资讯网_今日热点_娱乐才是你关心的时事

“读懂”长视频，和你交流！谷歌发布AI模型：Mirasol3B

相关推荐

西汉和东汉的首都在哪里？

超10万点赞！重庆酒店总经理高颜值出圈，陈坤认领：我发小，帅！

小红书在找“好榜样”

反诈警察家属被骗走6000元，报案时笑称自己是送外卖的！

离婚夫妻给2岁女儿过生日，男人一个举动，让女人决定复婚

网易：第三季度净利润273亿，大模型赋能游戏！

苹果遥遥无期、华为遥遥领先！苹果5G基带再次延期，2026年使用？

华为悄然对新机提价，或因储存芯片涨价

清朝妃子为何戴长指甲套？除了好看还有一原因，主要为了方便皇上

男子打工存50万回村生活，吃饱就睡不找老婆，老了怎么办

评论