只用一张图 + 相机走位,AI 就可以脑补周围环境
发布时间:2022-03-21 17:57:48 所属栏目:动态 来源:互联网
导读:站在门口看一眼,AI 就能脑补出房间里面长什么样: 是不是有线上 VR 看房那味儿了?不只是室内效果,来个远景长镜头航拍也是 so easy: 这一次的新进展,则是将视角进一步延伸,更侧重让 AI 预测出远距离的画面。 目前,该研究的相关论文已被 CVPR2022 接
站在门口看一眼,AI 就能脑补出房间里面长什么样: 是不是有线上 VR 看房那味儿了?不只是室内效果,来个远景长镜头航拍也是 so easy: 这一次的新进展,则是将视角进一步延伸,更侧重让 AI 预测出远距离的画面。 目前,该研究的相关论文已被 CVPR2022 接收。 整个过程可以分为两个阶段。 第一阶段先预训练了一个 VQ-GAN,可以把输入图像映射到 token 上。VQ-GAN 是一个基于 Transformer 的图像生成模型,其最大特点就是生成的图像非常高清。在这部分,编码器会将图像编码为离散表示,解码器将表示映射为高保真输出。 第二阶段,在将图像处理成 token 后,研究人员用了类似 GPT 的架构来做自回归。具体训练过程中,要将输入图像和起始相机轨迹位置编码为特定模态的 token,同时添加一个解耦的位置输入 P.E.。然后,token 被喂给自回归 Transformer 来预测图像。模型从输入的单个图像开始推理,并通过预测前后帧来不断增加输入。 研究人员发现,并非每个轨迹时刻生成的帧都同样重要。因此,他们还利用了一个局部性约束来引导模型更专注于关键帧的输出。这个局部性约束是通过摄像机轨迹来引入的。基于两帧画面所对应的摄像机轨迹位置,研究人员可以定位重叠帧,并能确定下一帧在哪。 为了结合以上内容,他们利用 MLP 计算了一个“相机感知偏差”。这种方法会使得在优化时更加容易,而且对保证生成画面的一致性上,起到了至关重要的作用。 本项研究在 RealEstate10K、Matterport3D 数据集上进行实验。结果显示,相较于不规定相机轨迹的模型,该方法生成图像的质量更好。 (编辑:廊坊站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
相关内容
- 银欣发布 160 mm 大尺寸RGB风扇,可安装在140mm风扇位中
- 乐视 Y2 Pro 入门旗舰机 发售 酷似 iPhone 13 Pro
- 玩家成功开盖 AMD 锐龙 7 5800X3D 处理器
- 美参议员敦促美政府禁止华为、中兴参与1.9万亿美元政府补贴
- 谷歌 Pixel 7暴露 基于 CAD 制作,有望 10 月推出
- 快递+智橙网+按需送,韵达保障618有何不一样?
- TP-LINK 推出旗舰级高速球机 4K 高清,40 倍光学变焦
- 机械革命连发四款锐龙游戏本锐龙96900HX17寸巨屏只需11999
- NVIDIA RTX 2050显卡性能首测 和锐龙6000H APU一个档次
- 华为 WATCH GT 3 Pro 测验 全网最懂你健康的表
站长推荐
热点阅读