首页 > 手游资讯 >智源发布原生多模态世界模型 Emu3,宣称实现图像、文本、视频大一统

智源发布原生多模态世界模型 Emu3,宣称实现图像、文本、视频大一统

2024-10-22 12:30:40七分软件园

感谢本站网友 HH_KK 的线索投递!

本站 10 月 21 日消息,智源研究院今日发布原生多模态世界模型 Emu3。该模型只基于下一个 token 预测,无需扩散模型或组合方法,即可完成文本、图像、视频三种模态数据的理解和生成。官方宣称实现图像、文本、视频大一统。

在图像生成任务中,基于人类偏好评测,Emu3 优于 SD-1.5 与 SDXL 模型。在视觉语言理解任务中,对于 12 项基准测试的平均得分,Emu3 优于 LlaVA-1.6。在视频生成任务中,对于 VBench 基准测试得分,Emu3 优于 OpenSora 1.2。

据介绍,Emu3 提供了一个强大的视觉 tokenizer,能够将视频和图像转换为离散 token。这些视觉离散 token 可以与文本 tokenizer 输出的离散 token 一起送入模型中。与此同时,该模型输出的离散 token 可以被转换为文本、图像和视频,为 Any-to-Any 的任务提供了更加统一的研究范式。

▲Emu3 生成的图像

Emu3 研究结果证明,下一个 token 预测可以作为多模态模型的一个强大范式,实现超越语言本身的大规模多模态学习,并在多模态任务中实现先进的性能。通过将复杂的多模态设计收敛到 token 本身,能在大规模训练和推理中释放巨大的潜力。

目前 Emu3 已开源了关键技术和模型,本站附链接如下:

    代码:https://github.com/baaivision/Emu3

    项目页面:https://emu.baai.ac.cn/

    模型:https://huggingface.co/collections/BAAI/emu3-66f4e64f70850ff358a2e60f

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表本站立场。文章及其配图仅供学习分享之

9050
275

同类推荐更多

免费的行情网站入口有哪些?如何选择最适合你的平台?

免费的行情网站入口有哪些?如何选择最适合你的平台?

最火的手游资讯

2024-10-18

在这个信息化快速发展的时代,获取及时的市场行情信息变得至关重要。免费的行情网站为我们提供了一个方便的渠道,让用户在不花费任何费用的情况下,获得最新的行情数据。这些网站通常涵盖股票、期货、外汇等多个领域,帮助投资者做出明智的决策。接下来,我们将探讨一些常见的免费行情网站入口,以及它们的优势和使用方法。