美团开源虚拟人视频生成模型 LongCat-Video-Avatar：号称“不说话”时都像人 ... ...

　　IT之家12 月 18 日消息，据“龙猫 LongCat”公众号今晚的推文，美团 LongCat 团队正式发布并开源 SOTA 级虚拟人视频生成模型 ——LongCat-Video-Avatar。

　　该模型基于 LongCat-Video 基座打造，延续“一个模型支持多任务”的核心设计，原生支持 Audio-Text-to-Video、Audio-Text-Image-to-Video 及视频续写等核心功能，同时在底层架构上全面升级，实现动作拟真度、长视频稳定性与身份一致性三大维度的突破。

　　据官方介绍，该模型具备如下技术亮点。

　　“告别僵硬，迎接鲜活”：不仅能指挥嘴型，还能同步指挥眼神、表情和肢体动作，实现丰富饱满的情感表达。

　　连“不说话”的时候，都很像人：美团通过 Disentangled Unconditional Guidance（解耦无条件引导）训练方法，让模型明白了“静音”不等于“死机”。在说话的间歇，虚拟人也会如同人类一般自然地眨眼、调整坐姿、放松肩膀。

　　据介绍，LongCat-Video-Avatar 因此成为首个同时支持文字、图片、视频三种生成模式的“全能选手”，虚拟人从此有了“真正的生命力”。

　　在 HDTF、CelebV-HQ 、EMTD 和 EvalTalker 等权威公开数据集上的定量评测表明，LongCat-Video-Avatar 在多项核心指标上达到 SOTA 领先水平。

　　IT之家附项目地址：

　　GitHub:https://github.com/meituan-longcat/LongCat-Video

　　Hugging Face:https://huggingface.co/meituan-longcat/LongCat-Video-Avatar

　　Project:https://meigen-ai.github.io/LongCat-Video-Avatar/

		自动登录	找回密码
密码			立即注册

一柱擎天的爱情，一往无前的生活