您现在的位置是:门店装修一般在哪里找 > 时尚
一行文本,生成3D动态场景:Meta这个「一步到位」模型有点厉害
门店装修一般在哪里找2023-04-01 07:08:09【时尚】8人已围观
简介🈲日本美女壁纸高清图片🈲挑拨离间[tiǎo bō lí jiàn] 挑起是非争端,制造矛盾,使别人闹不团结。不再需要任何 3D 或 4D 数据,来自 Meta 的研究者首次提出了可以从文本描述中生成三维动态场景的方法 MAV3D (Make-A-Video3D)。仅输入一行文本,就能生成 3D 动态场景?没
不(bú)再需要(yào)任何 3D 或 4D 数据,īshēnchéngDònMetazhgèyīdàtypeǒ来自 Meta 的行文(de)研究者首次提出(chū)了(le)可(kě)以(yǐ)从文本描述中(zhōng)生(shēng)成(chéng)三维动(dòng)态场景的(de)方法 MAV3D (Make-A-Video3D)。
仅输入一(yī)行文本,本生步日本美女壁纸高清图片就(jiù)能生(shēng)成(chéng) 3D 动(dòng)态场景?
没错,成场景已经有(yǒu)研究者做到(dào)了(le) 。动d点厉可(kě)以(yǐ)看出(chū)来 ,模型目前的īshēnchéngDònMetazhgèyīdàtypeǒ(de)生(shēng)成(chéng)效果还处于(yú)初级阶段,只能生(shēng)成(chéng)一(yī)些简单的行文(de)对(duì)象。不(bú)过这(zhè)种「一(yī)步到(dào)位」的本生步日本美女壁纸高清图片(de)方法仍然引(lead)起了(le)大(dà)量研究者的(de)关注:

在(zài)最近的(de)一(yī)篇论文中(zhōng),来自 Meta 的成场景(de)研究者首次提出(chū)了(le)可(kě)以(yǐ)从文本描述中(zhōng)生(shēng)成(chéng)三维动(dòng)态场景的(de)方法 MAV3D (Make-A-Video3D) 。

- 论文链接 :https://arxiv.org/abs/2301.11280
- 项目链接:https://make-a-video3d.github.io/
具体而言,动d点厉该(Should)方法运用 4D 动(dòng)态神经辐射场(NeRF) ,模型通过查(check)询基于(yú)文本到(dào)视频(T2V)扩散的īshēnchéngDònMetazhgèyīdàtypeǒ(de)模型(type),优化场景外观 、行文密度和(hé)运动(dòng)的本生步(de)一(yī)致性。任意机位或角度都可(kě)以(yǐ)观看到(dào)提供的(de)文本生(shēng)成(chéng)的(de)动(dòng)态视频输出(chū) ,并可(kě)以(yǐ)合成(chéng)到(dào)任何 3D 环境中(zhōng)。
MAV3D 不(bú)需要(yào)任何 3D 或 4D 数据,T2V 模型(type)只对(duì)文本图像对(duì)和(hé)未标记的(de)视频进行训练 。

让我(wǒ)们看一(yī)下 MAV3D 从文本生(shēng)成(chéng) 4D 动(dòng)态场景的(de)效果:


此外,它也(yě)能从图像直接到(dào) 4D,效果如下 :


研究者通过全面的(de)定量和(hé)定性实验证明了(le)该(Should)方法的(de)有(yǒu)效性,先前建立的(de)内部 baseline 也(yě)得到(dào)了(le)改进。据悉,这(zhè)是(shì)第一(yī)个(gè)根据文本描述生(shēng)成(chéng) 3D 动(dòng)态场景的(de)方法 。
方法
该(Should)研究的(de)目标在(zài)于(yú)开发(fā)一(yī)项能从自然语言描述中(zhōng)生(shēng)成(chéng)动(dòng)态 3D 场景表征的(de)方法 。这(zhè)极具挑战性 ,因为(wéi)既没有(yǒu)文本或 3D 对(duì),也(yě)没有(yǒu)用于(yú)训练的(de)动(dòng)态 3D 场景数据。因此,研究者选择依靠预训练的(de)文本到(dào)视频(T2V)的(de)扩散模型(type)作(zuò)为(wéi)场景先验 ,该(Should)模型(type)已经学会(huì)了(le)通过对(duì)大(dà)规模图像、文本和(hé)视频数据的(de)训练来建模场景的(de)真实外观和(hé)运动(dòng)。
从更高层(layer)次来看