近年来,文生图像和文生视频模型取得了重大进展并获得了广泛关注,涌现了DALLE 2/3、Stable Diffusion、Stable Video Diffusion等一批代表性模型。2024年2月15日,OpenAI发布了AI文生视频大模型Sora,Sora不仅能够一段文字生成长时间高质量流畅视频,更可为通用物理世界模拟提供一种有效的构造方式,为未来的多媒体内容创作与体验开辟了新的可能性。
自2023年以来,威尼斯432888cam机器学习研究中心左旺孟团队针对文生图像的个体可控性差、文生3D的多面问题、以及文生视频的单帧质量较低和时域不平滑现象,提出了一系列新模型和新方法,在定制化图像生成、文生3D和文生视频等方面取得显著进展,成果相继发表于ICCV、AAAI、ICLR和CVPR等领域顶级会议。
在定制化图像生成方面,团队提出了一种基于模型的快速定制化文本到图像生成方法ELITE。ELITE利用全局编码网络将视觉概念直接映射为文本嵌入,并在训练时引入多层特征策略以提升文本嵌入的可编辑性。与此同时,ELITE采用局部编码网络来补充细节,以更好地平衡定制化生成的一致性和可编辑性。实验表明ELITE可以在极短的时间内(小于0.1秒)学习新的视觉概念,并可以进行高效的编辑。ELITE为定制化文本图像生成领域带来了新的方法和思路,不仅提高了生成速度,还保持了生成图像的质量和可控性,对于实际应用中快速生成特定个体的图像具有重要意义。
与现有方法比较
Elite生成结果
在文生3D方面,团队分析了多面(Janus)问题的产生原因,即2D扩散模型中的视角偏差和优化目标的过拟合。提出了一个两阶段的2D提升框架DreamControl,通过将初步的NeRF场景作为3D自身先验,利用基于ControlNet的分数蒸馏生成精细3D模型。在第一阶段,提出了自适应视角采样和边界完整性度量。在第二阶段,利用条件LoRA和加权分数进一步优化3D模型的细节纹理,有效避免了文生3D的多面问题。
文生3D结果
在文生视频方面,团队分别研究了有无引导信息的文生视频任务。针对引导视频生成,团队提出了ControlVideo,利用交错帧平滑器、完全互注意力机制和分层采样策略,使得仅用单张NVIDIA 2080Ti GPU生成稳定视频成为可能。针对文生视频,团队提出了一种无需训练的即插即用视频质量提升方法VideoElevator,利用文生图像的的优越性能提升文生视频性能。VideoElevator主要包括时域运动改善和空域质量提升模块,时域运动改善模块利用封装的文生视频模型来增强时间一致性,空域质量提升模块利文生图像模型增加更多逼真的细节。VideoElevator不仅可以通过基础文生图像模型改进文生视频基线模型的性能,还通过个性化文生图像模型实现风格化视频生成。
与Sora相比,VideoElevator能够达到相当的图像帧质量,但在视频生成的长度和场景复杂性方面仍有显著差距。今后,团队将围绕复杂场景长视频生成及真实性建模继续开展研究,力争在整体上达到接近Sora的性能,并在若干单点技术上实现性能赶超。
文生视频结果
除日常生活和娱乐外,在许多航空航天和工业应用中,AI视觉内容生成技术还可用于生成训练数据,缓解数据稀缺和分布不均衡,支持人工智能系统的快速开发与迭代更新。
相关科研成果:
[1] Yuxiang Wei, Yabo Zhang, Zhilong Ji, Jinfeng Bai, Lei Zhang, Wangmeng Zuo,ELITE: Encoding Visual Concepts into Textual Embeddings for Customized Text-to-Image Generation, ICCV 2023.
[2] Yufei Cai, Yuxiang Wei, Zhilong Ji, Jinfeng Bai, Hu Han, Wangmeng Zuo, Decoupled Textual Embeddings for Customized Image Generation, AAAI 2024.
[3] Tianyu Huang, Yihan Zeng, Bowen Dong, Hang Xu, Songcen Xu, Rynson WH Lau, Wangmeng Zuo, Textfield3d: Towards enhancing open-vocabulary 3d generation with noisy text fields, ICLR 2024.
[4] Tianyu Huang, Yihan Zeng, Zhilu Zhang, Wan Xu, Hang Xu, Songcen Xu, Rynson WH Lau, Wangmeng Zuo, Dreamcontrol: Control-based text-to-3d generation with 3d self-prior, CVPR 2024.
[5] Yabo Zhang, Yuxiang Wei, Dongsheng Jiang, Xiaopeng Zhang, Wangmeng Zuo, Qi Tian, Controlvideo: Training-free controllable text-to-video generation, ICLR 2024.
[6] Yabo Zhang, Yuxiang Wei, Xianhui Lin, Zheng Hui, Peiran Ren, Xuansong Xie, Xiangyang Ji, Wangmeng Zuo, VideoElevator: Elevating Video Generation Quality with Versatile Text-to-Image Diffusion Models, Arxiv 2024.