LongCat-Video：美团开源的13.6B参数多任务视频生成模型，高效输出分钟级720p长视频

原创发布日期：2025-10-27

一、LongCat-Video是什么？

LongCat-Video是美团LongCat团队开源的基础视频生成模型，基于13.6B参数构建，采用统一架构原生支持文本转视频、图像转视频、视频续接三大任务，核心优势在于高效生成分钟级720p 30fps长视频（无颜色漂移与质量衰减），并通过时空双轴粗细生成策略、Block Sparse Attention优化推理效率，结合多奖励GRPO的RLHF训练，性能比肩主流开源及商业方案。

其定位为“向世界模型（World Models）迈进的第一步”，核心目标是解决多场景下的视频生成需求，尤其突破传统模型在长视频生成中的质量与效率瓶颈。

从核心属性来看，LongCat-Video具备以下关键特征：

参数规模：模型总参数为13.6B，采用密集型（Dense）架构（区别于部分开源模型如Wan 2.2的MoE混合专家架构），所有参数在推理时全激活，避免MoE架构中“专家选择偏差”可能导致的性能波动；
任务覆盖：无需额外适配或微调，单模型原生支持三大核心任务——Text-to-Video（文本转视频）、Image-to-Video（图像转视频）、Video-Continuation（视频续接），且在各任务中均能稳定输出高质量结果；
性能定位：通过内部及公开基准测试验证，其文本对齐度、视觉质量、运动流畅度等指标比肩Veo3、PixVerse-V5等商业模型，以及Wan 2.2系列等主流开源模型；
许可证类型：模型权重及代码仓库遵循MIT许可证开源，允许开发者自由使用（包括商用），但需注意：许可证不授予美团商标或专利的使用权限，商用时需遵守相关法律法规，不得滥用品牌标识。

简单来说，LongCat-Video不是单一功能的视频工具，而是一个“一站式视频生成基础框架”——开发者无需为不同任务部署多个模型，通过一套代码、一个模型即可实现“文本→视频”“图像→视频”“视频→更长视频”的全流程生成，大幅降低视频AI应用的开发成本。

二、LongCat-Video的功能特色

LongCat-Video的核心竞争力源于四大差异化特色，这些特色既解决了传统视频生成模型的痛点，也贴合实际开发与应用需求：

1. 统一架构：单模型覆盖多任务，无需切换成本

传统视频生成方案常面临“任务割裂”问题——文本转视频用A模型、图像转视频用B模型、视频续接用C模型，不仅需要额外的模型存储资源，还需开发适配不同模型的调用逻辑，增加了系统复杂度。

LongCat-Video通过统一的视频生成框架，将三大任务的核心逻辑整合到单一模型中：

任务适配：模型输入层支持文本prompt、静态图像、视频片段等多种格式，通过内置的“任务识别模块”自动判断生成需求，无需开发者手动指定任务类型；
性能一致性：在内部MOS（Mean Opinion Score，平均意见得分）评估中，其Text-to-Video任务的整体质量得分为3.38，Image-to-Video任务的视觉质量得分为3.27，均处于开源模型第一梯队，避免了“单任务强、多任务弱”的失衡问题。

对开发者而言，这一特色意味着“一次部署，多场景复用”——例如电商平台可通过同一套LongCat-Video服务，既生成商品描述对应的宣传视频（Text-to-Video），又将商品主图转为动态展示短片（Image-to-Video），还能将用户上传的短视频续接为更长的产品使用教程（Video-Continuation），大幅简化技术栈。

2. 长视频生成：分钟级输出，无质量衰减

“长视频生成”是视频AI领域的核心痛点之一：传统模型生成10秒以上视频时，常出现颜色漂移（如人物肤色从白皙变暗沉）、物体形变（如杯子从圆形变椭圆形）、场景跳变（如背景从室内突然变室外）等问题，且生成时间随视频长度呈指数级增长。

LongCat-Video通过原生预训练策略攻克这一难题：

预训练基础：模型在训练阶段即重点针对“Video-Continuation”任务进行优化，学习“如何基于已有视频片段的风格、内容、运动逻辑，自然延续生成新片段”，而非仅训练“短片段生成”能力；
长视频表现：可稳定生成分钟级（如1-3分钟） 视频，且全程保持720p分辨率、30fps帧率，无明显的颜色漂移或质量下降；
对比优势：相较于部分开源模型“仅支持10-20秒视频生成”的限制，LongCat-Video更适合需要长内容的场景（如纪录片片段、课程视频、直播回放扩展）。

3. 高效推理：分钟级生成720p视频，资源占用可控

视频生成的“效率”与“质量”常呈反比——高分辨率、高帧率视频往往需要数小时生成，难以满足实际应用中的“实时性需求”。LongCat-Video通过两大优化策略，实现“高质量”与“高效率”的平衡：

（1）时空双轴粗细生成策略

模型并非直接生成完整的高分辨率视频，而是分两步优化：

时间轴（ temporal axis ）：先生成低帧率（如5fps）的“粗框架视频”，确定视频的运动轨迹、场景切换逻辑；再基于粗框架，补充中间帧，提升至30fps，确保运动流畅度；
空间轴（ spatial axis ）：先生成低分辨率（如360p）的“内容原型”，确定物体位置、色彩基调；再通过超分算法提升至720p，保证视觉清晰度。

这一策略大幅减少了“无效计算”——例如无需为尚未确定运动轨迹的帧计算高分辨率细节，使720p 30fps视频的生成时间缩短至“几分钟内”（具体时间取决于硬件配置，单GPU环境下约3-5分钟/分钟视频）。

（2）Block Sparse Attention（块稀疏注意力）

高分辨率视频的帧包含大量像素点，传统注意力机制需计算“所有像素与所有像素”的关联，计算量巨大。LongCat-Video引入Block Sparse Attention，将图像帧划分为多个“像素块”，仅计算“相关块之间的注意力”，而非单个像素，在高分辨率（如720p）场景下可减少约40%的计算量，同时保持注意力机制的有效性（避免因稀疏化导致的内容关联性丢失）。

此外，模型还支持灵活的注意力框架切换：默认启用FlashAttention-2（兼顾速度与内存效率），开发者可根据硬件环境替换为FlashAttention-3（更高速度）或xformers（更优内存占用），进一步优化推理性能。

4. 多奖励RLHF：性能比肩商业方案

为提升生成视频的“用户满意度”，LongCat-Video采用多奖励Group Relative Policy Optimization（GRPO） 强化学习策略（属于RLHF，基于人类反馈的强化学习）：

多奖励设计：不同于单一“视觉质量”奖励，模型的奖励函数涵盖四大维度——文本/图像对齐度（生成内容是否匹配输入prompt或图像）、视觉质量（清晰度、色彩还原度）、运动质量（流畅度、无卡顿）、内容合理性（无逻辑错误，如人物肢体不自然、物体突然消失）；
GRPO优化：通过“分组相对策略”，让模型在不同任务场景下（如Text-to-Video vs Image-to-Video）自适应调整各奖励维度的权重，避免“一刀切”的奖励机制导致某一任务性能受损；
评估验证：在内部Text-to-Video基准中，其文本对齐度得分为3.76（高于Wan 2.2-T2V-A14B的3.70），整体质量得分为3.38（高于Wan 2.2的3.35）；在Image-to-Video基准中，视觉质量得分为3.27（高于Seedance 1.0的3.22、Hailuo-02的3.18），证明其性能已达到“商业级水准”，且开源免费。

三、LongCat-Video的技术细节

要深入理解LongCat-Video的能力，需从模型架构、训练策略、推理优化、评估体系四个维度拆解其技术设计：

1. 模型架构：13.6B密集型设计，兼顾性能与稳定性

LongCat-Video采用密集型Transformer架构，总参数13.6B，与部分开源模型（如Wan 2.2的28B MoE架构）形成鲜明对比，其设计逻辑如下：

对比维度	LongCat-Video（密集型）	Wan 2.2-T2V-A14B（MoE）	设计优势
总参数	13.6B	28B	参数规模更小，内存占用更低（单GPU推理需16GB以上显存，MoE需24GB以上）
激活参数	13.6B（全激活）	14B（仅激活部分专家）	无专家选择偏差，生成结果更稳定，避免MoE“部分样本性能波动”问题
推理兼容性	支持单GPU/多GPU并行	依赖多GPU专家并行	单GPU即可运行，降低中小开发者使用门槛
任务适配性	单模型覆盖多任务	需针对任务微调专家权重	无需额外微调，开发效率更高

密集型架构的核心优势在于“稳定性”——MoE架构虽能通过“激活部分专家”降低计算量，但可能因“专家选择错误”导致生成内容偏离输入需求（如文本prompt是“猫跑”，却激活了“狗跑”的专家模块）；而LongCat-Video的全参数激活虽计算量略高，但通过Block Sparse Attention优化后，效率已接近MoE，且生成结果的一致性更强。

2. 训练策略：原生预训练+多奖励RLHF，双阶段优化

模型训练分为“预训练”和“RLHF微调”两个阶段，确保基础能力与用户满意度双达标：

（1）预训练阶段：以Video-Continuation为核心，夯实长视频能力

预训练数据以“视频片段+续接需求”为主，辅以文本-视频对、图像-视频对数据，目标是让模型学习三大核心能力：

内容延续性：理解视频的场景逻辑（如“室内→室外”的自然过渡）、物体运动规律（如“球下落→反弹”的物理逻辑）；
风格一致性：保持续接片段与原片段的色彩风格（如卡通风、写实风）、画质分辨率一致；
多模态关联：建立文本→视觉、图像→动态的映射关系，为后续多任务支持打下基础。

这一阶段的训练时长约为2周（基于8张A100 GPU），最终使模型具备“无监督续接视频”的能力，无需依赖额外标注数据。

（2）RLHF微调阶段：多奖励GRPO，贴近人类偏好

RLHF阶段分为三步：

数据收集：邀请100+标注员对模型生成的视频进行打分，打分维度包括文本/图像对齐度、视觉质量、运动质量、内容合理性（每项1-5分）；
奖励模型训练：基于标注数据训练“奖励模型（Reward Model）”，使其能自动对生成视频打分，替代人工标注；
策略优化：采用GRPO算法，以“奖励模型得分最大化”为目标，微调生成策略——例如当模型生成“人物肢体不自然”的视频时，奖励模型给出低分，GRPO会调整模型参数，减少此类错误。

通过这一阶段，模型生成的视频“人类满意度”提升约30%，尤其在“运动流畅度”和“文本对齐度”上改善明显。

3. 推理优化：多维度降低使用门槛

为让开发者更易部署，LongCat-Video在推理环节做了多重优化：

（1）注意力框架兼容

支持三种主流注意力优化框架，开发者可根据硬件环境选择：

FlashAttention-2（默认）：兼顾速度与内存效率，适用于NVIDIA Ampere及以上架构GPU（如A10、A100、RTX 30/40系列）；
FlashAttention-3：比FlashAttention-2快约20%，需更新GPU驱动至535+版本；
xformers：内存占用比FlashAttention低约15%，适用于显存较小的GPU（如RTX 3060 12GB）。

（2）编译优化

支持PyTorch 2.0+的torch.compile功能，通过“静态图编译”将推理速度提升约1.5倍——在运行命令中添加--enable_compile参数即可启用，无需额外修改代码。

（3）多GPU并行策略

支持“上下文并行（context parallel）”，将模型的上下文层（处理输入prompt、图像的模块）拆分到多个GPU上，降低单GPU内存占用：

2卡并行：可将显存占用从16GB降至10GB/卡；
4卡并行：可降至8GB/卡，适合显存有限的场景。

4. 评估体系：内部MOS基准，全面衡量性能

LongCat-Video的评估基于内部MOS基准，涵盖Text-to-Video和Image-to-Video两大任务，评估维度与主流商业模型、开源模型对比，确保结果客观可信：

（1）Text-to-Video任务评估（内部基准）

评估维度	Veo3（商业）	PixVerse-V5（商业）	Wan 2.2-T2V-A14B（开源）	LongCat-Video（开源）
可访问性	闭源	闭源	开源	开源
架构类型	-	-	MoE	Dense
文本对齐度（↑）	3.99	3.81	3.70	3.76
视觉质量（↑）	3.23	3.13	3.26	3.25
运动质量（↑）	3.86	3.81	3.78	3.74
整体质量（↑）	3.48	3.36	3.35	3.38

注：MOS得分越高，性能越好，满分5分

（2）Image-to-Video任务评估（内部基准）

评估维度	Seedance 1.0（商业）	Hailuo-02（商业）	Wan 2.2-I2V-A14B（开源）	LongCat-Video（开源）
可访问性	闭源	闭源	开源	开源
架构类型	-	-	MoE	Dense
图像对齐度（↑）	4.12	4.18	4.18	4.04
文本对齐度（↑）	3.70	3.85	3.33	3.49
视觉质量（↑）	3.22	3.18	3.23	3.27
运动质量（↑）	3.77	3.80	3.79	3.59
整体质量（↑）	3.35	3.27	3.26	3.17

从评估结果可见：LongCat-Video在开源模型中表现突出，尤其在Text-to-Video的整体质量、Image-to-Video的视觉质量上优于Wan 2.2系列；虽在部分维度（如Image-to-Video的图像对齐度）略逊于商业模型，但考虑到其开源免费属性，性价比优势显著。

LongCat-Video：美团开源的13.6B参数多任务视频生成模型，高效输出分钟级720p长视频

四、LongCat-Video的应用场景

基于三大核心任务能力，LongCat-Video可广泛应用于内容创作、电商、教育、影视等多个领域，以下为典型场景示例：

1. 内容创作：快速生成短视频素材

（1）Text-to-Video：脚本→视频

适用人群：短视频博主、广告创意师、动画师；
场景示例：博主想生成“秋日公园小猫追落叶”的15秒短视频，只需输入文本prompt（“A small orange cat chases fallen leaves in a park in autumn, sunny day, realistic style, 15 seconds”），模型可直接输出对应的视频，无需手动拍摄或建模；
优势：将“创意脚本”快速转化为可视化内容，创作周期从“1天”缩短至“5分钟”，尤其适合需要高频产出的短视频平台（如抖音、快手、TikTok）。

（2）Image-to-Video：静态插画→动态短片

适用人群：插画师、儿童绘本作者、游戏美术；
场景示例：插画师完成一幅“海底城堡”的静态插画，通过Image-to-Video功能，可让城堡的窗户发光、鱼群从城堡旁游过、水草随水流摆动，生成30秒的动态短片，用于绘本配套视频或游戏宣传素材；
优势：让静态艺术作品“活起来”，无需掌握AE、C4D等复杂动效软件，降低动效创作门槛。

2. 电商：商品动态展示

（1）Image-to-Video：商品主图→演示视频

适用人群：电商运营、品牌商家；
场景示例：服装商家上传一件“夏季连衣裙”的静态主图，输入文本prompt（“The dress sways gently in the wind, showing the fabric texture and fit, white background, 20 seconds”），模型可生成动态视频，展示连衣裙的面料垂感、摆动效果，比静态图更直观；
优势：提升商品详情页的吸引力，据电商平台数据，动态商品视频可使转化率提升20%-30%，且LongCat-Video的生成效率远高于传统拍摄（传统拍摄需1-2天，模型生成仅需3分钟）。

（2）Video-Continuation：短演示→长教程

适用人群：3C产品商家、家电品牌；
场景示例：商家已有一段“手机开机”的10秒视频，通过Video-Continuation功能，可续接“手机解锁→打开相机→拍摄照片”的20秒视频，形成完整的“手机基础操作教程”，用于客服答疑或商品详情页；
优势：无需重新拍摄长视频，仅需补充续接内容，节省拍摄成本。

3. 教育：教学素材可视化

（1）Text-to-Video：知识点→动画视频

适用人群：教师、教育机构内容研发者；
场景示例：小学科学老师想讲解“水的三态变化”，输入文本prompt（“The process of water changing from ice to water to steam, microscopic view of water molecules, animated style, 1 minute”），模型可生成1分钟的动画视频，展示水分子在不同状态下的运动规律，比静态PPT更易理解；
优势：将抽象知识点转化为具象视频，提升学生注意力，尤其适合K12教育和职业培训（如编程、机械原理）。

（2）Image-to-Video：知识点图示→动态讲解

适用人群：医学教育、工程教育从业者；
场景示例：医学老师上传一张“心脏血液循环”的静态示意图，通过Image-to-Video功能，可让血液在血管中流动、心脏瓣膜开合，生成45秒的动态视频，用于讲解血液循环原理；
优势：复杂结构的动态演示更易帮助学生理解，减少教师的备课时间（传统动态课件制作需2-3小时，模型生成仅需4分钟）。

4. 影视与游戏：辅助内容生产

（1）Video-Continuation：影视片段→续接创意

适用人群：影视编剧、游戏策划；
场景示例：编剧已有一段“主角走进神秘山洞”的10秒片段，通过Video-Continuation功能，可尝试不同的续接方向（如山洞内出现宝箱、出现怪兽、出现时光门），快速生成多个创意方案，辅助剧本决策；
优势：拓展创意边界，减少“脑暴”时间，尤其适合影视前期创意阶段。

（2）Text-to-Video：游戏剧情→过场动画

适用人群：独立游戏开发者；
场景示例：独立游戏团队想为游戏添加“主角击败BOSS后庆祝”的过场动画，输入文本prompt（“The protagonist raises a sword and cheers after defeating the dragon, fantasy style, 10 seconds”），模型可直接生成动画，无需专业动画师团队；
优势：降低独立游戏的内容生产成本，解决“缺美术资源”的痛点。

五、LongCat-Video的使用方法

LongCat-Video提供完整的部署与使用指南，开发者只需按以下步骤操作，即可快速运行模型（以Windows/Linux系统为例，需NVIDIA GPU支持CUDA）：

1. 环境准备：安装依赖

（1）硬件要求

GPU：支持CUDA 11.7及以上的NVIDIA GPU，显存≥16GB（单GPU推理），≥8GB/卡（多GPU推理）；
CPU：≥8核（如Intel i7-12700H、AMD Ryzen 7 5800X）；
内存：≥32GB（避免推理时内存不足）；
存储：预留≥20GB空间（模型权重约15GB，依赖包约5GB）。

（2）软件安装步骤

步骤1：克隆代码仓库

打开终端（Windows用PowerShell，Linux用Terminal），执行以下命令克隆GitHub仓库：

git clone https://github.com/meituan-longcat/LongCat-Video
cd LongCat-Video # 进入仓库目录

步骤2：创建并激活Conda环境

LongCat-Video依赖Python 3.10，建议使用Conda管理环境（需先安装Anaconda或Miniconda）：

# 创建环境（环境名：longcat-video，Python版本3.10）
conda create -n longcat-video python=3.10
# 激活环境
conda activate longcat-video

步骤3：安装PyTorch（带CUDA支持）

根据GPU的CUDA版本选择对应PyTorch版本，文档推荐CUDA 12.4，命令如下：

pip install torch==2.6.0+cu124 torchvision==0.21.0+cu124 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu124

若CUDA版本为11.8，替换为：

pip install torch==2.6.0+cu118 torchvision==0.21.0+cu118 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu118

验证安装：执行python -c "import torch; print(torch.cuda.is_available())"，输出True即表示PyTorch与CUDA适配成功。

步骤4：安装FlashAttention

模型默认使用FlashAttention-2优化注意力计算，安装命令如下：

# 安装依赖工具
pip install ninja psutil packaging
# 安装FlashAttention-2.7.4.post1（兼容PyTorch 2.6.0）
pip install flash_attn==2.7.4.post1

若安装失败（如GPU架构不支持），可跳过此步骤，后续在模型配置中改用xformers（需执行pip install xformers）。

步骤5：安装其他依赖

通过requirements.txt安装剩余依赖：

pip install -r requirements.txt

依赖包包括：huggingface_hub（模型下载）、diffusers（扩散模型工具）、streamlit（可视化界面）、opencv-python（视频处理）等。

2. 模型下载：获取权重文件

LongCat-Video的模型权重托管于Hugging Face，需通过huggingface-cli下载：

步骤1：安装huggingface-cli

pip install "huggingface_hub[cli]"

步骤2：登录Hugging Face（可选）

若需下载私有模型（LongCat-Video为公开模型，此步骤可选），执行huggingface-cli login，按提示输入Hugging Face账号的API Token（从Hugging Face官网“Settings→Access Tokens”获取）。

步骤3：下载模型至本地

# 下载模型到 ./weights/LongCat-Video 目录
huggingface-cli download meituan-longcat/LongCat-Video --local-dir ./weights/LongCat-Video

下载大小约15GB，耗时取决于网络速度（建议使用国内镜像或科学上网，避免中断）；
若下载中断，重新执行上述命令，会自动续传未完成的文件。

3. 运行各任务：命令详解

LongCat-Video为每个任务提供独立的运行脚本，支持单GPU和多GPU推理，以下为各任务的核心命令（所有命令需在LongCat-Video目录下执行，且已激活longcat-video环境）：

任务类型	单GPU推理命令	多GPU推理命令（2卡为例）	输出结果位置
文本转视频	`torchrun run_demo_text_to_video.py --checkpoint_dir=./weights/LongCat-Video --enable_compile`	`torchrun --nproc_per_node=2 run_demo_text_to_video.py --context_parallel_size=2 --checkpoint_dir=./weights/LongCat-Video --enable_compile`	`./output/text_to_video/`
图像转视频	`torchrun run_demo_image_to_video.py --checkpoint_dir=./weights/LongCat-Video --enable_compile --image_path ./assets/example.jpg`	`torchrun --nproc_per_node=2 run_demo_image_to_video.py --context_parallel_size=2 --checkpoint_dir=./weights/LongCat-Video --enable_compile --image_path ./assets/example.jpg`	`./output/image_to_video/`
视频续接	`torchrun run_demo_video_continuation.py --checkpoint_dir=./weights/LongCat-Video --enable_compile --video_path ./assets/example.mp4 --continuation_length 10`	`torchrun --nproc_per_node=2 run_demo_video_continuation.py --context_parallel_size=2 --checkpoint_dir=./weights/LongCat-Video --enable_compile --video_path ./assets/example.mp4 --continuation_length 10`	`./output/video_continuation/`
长视频生成	`torchrun run_demo_long_video.py --checkpoint_dir=./weights/LongCat-Video --enable_compile --prompt "A sunset over the ocean, 2 minutes" --video_length 120`	`torchrun --nproc_per_node=2 run_demo_long_video.py --context_parallel_size=2 --checkpoint_dir=./weights/LongCat-Video --enable_compile --prompt "A sunset over the ocean, 2 minutes" --video_length 120`	`./output/long_video/`
Streamlit可视化	`streamlit run ./run_streamlit.py --server.fileWatcherType none --server.headless=false`	-（暂不支持多GPU可视化）	浏览器界面实时输出

命令参数说明：

--checkpoint_dir：模型权重目录，必须指向下载的./weights/LongCat-Video；
--enable_compile：启用PyTorch编译优化，提升推理速度（建议启用）；
--image_path（Image-to-Video）：输入静态图像路径，支持jpg、png格式；
--video_path（Video-Continuation）：输入视频路径，支持mp4、avi格式；
--continuation_length（Video-Continuation）：续接视频的长度（单位：秒），默认10秒；
--prompt（Text-to-Video/Long-Video）：文本提示词，需详细描述场景、风格、时长；
--video_length（Long-Video）：长视频总长度（单位：秒），默认60秒（1分钟）；
--nproc_per_node（多GPU）：使用的GPU数量，如2、4；
--context_parallel_size（多GPU）：上下文并行的GPU数量，需与--nproc_per_node一致。

示例：生成“15秒秋日公园小猫”视频

执行单GPU推理命令：

torchrun run_demo_text_to_video.py --checkpoint_dir=./weights/LongCat-Video --enable_compile --prompt "A small orange cat chases fallen leaves in a park in autumn, sunny day, realistic style, 15 seconds" --video_length 15

等待生成（约3-5分钟）；
查看结果：生成的mp4视频保存在./output/text_to_video/目录下，文件名包含时间戳（如text_to_video_20251026_1430.mp4）。

4. Streamlit可视化：更直观的操作界面

若不熟悉命令行，可通过Streamlit可视化界面操作，步骤如下：

执行启动命令：

streamlit run ./run_streamlit.py --server.fileWatcherType none --server.headless=false

自动打开浏览器（若未自动打开，复制终端输出的URL，如http://localhost:8501，在浏览器中打开）；
界面操作：

选择任务类型（Text-to-Video/Image-to-Video/Video-Continuation）；
输入prompt（文本任务）或上传图像/视频（图像/视频任务）；
设置视频长度、分辨率、帧率等参数；
点击“Generate”按钮，实时查看生成进度；
生成完成后，可直接在界面播放或下载视频。

六、常见问题解答（FAQ）

Q1：安装FlashAttention时提示“CUDA error: no kernel image is available for execution on the device”，怎么办？

A1：该错误表示FlashAttention版本与GPU架构不兼容，解决方案如下：

若GPU为NVIDIA Turing架构（如RTX 20系列）：FlashAttention-2不支持，需改用xformers，执行pip install xformers，并在模型配置文件（longcat_video/config.py）中修改attention_type = "xformers"；
若GPU为NVIDIA Ampere及以上（如RTX 30/40系列、A100）：更新GPU驱动至535+版本，重新安装FlashAttention-2.7.4.post1；
若仍失败：跳过FlashAttention，使用默认的PyTorch注意力机制（性能会下降约20%，但可正常运行）。

Q2：执行torch.cuda.is_available()输出False，如何解决？

A2：表示PyTorch未检测到CUDA，解决方案如下：

检查GPU是否支持CUDA：在终端执行nvidia-smi，查看“CUDA Version”是否≥11.7（若显示“N/A”，需安装NVIDIA驱动）；
确认PyTorch版本与CUDA版本匹配：例如CUDA 12.4需安装torch==2.6.0+cu124，若安装了CPU版本（如torch==2.6.0），需卸载后重新安装（pip uninstall torch torchvision torchaudio，再执行正确的安装命令）；
Windows用户：确保已安装“CUDA Toolkit”（从NVIDIA官网下载，与PyTorch依赖的CUDA版本一致，如CUDA 12.4）。

Q3：使用huggingface-cli下载模型时，速度极慢（<100KB/s），如何加速？

A3：可通过以下方式提升下载速度：

使用国内镜像：设置环境变量export HF_ENDPOINT=https://hf-mirror.com（Linux/Mac）或set HF_ENDPOINT=https://hf-mirror.com（Windows PowerShell），再执行下载命令；
手动下载：访问Hugging Face模型页面（https://huggingface.co/meituan-longcat/LongCat-Video），手动下载所有文件，解压至`./weights/LongCat-Video`目录（需确保目录结构与自动下载一致，即包含`config.json`、`pytorch_model.bin`等文件）；
分块下载：若下载中断，重新执行huggingface-cli download命令，会自动续传未完成的文件，无需从头下载。

Q4：下载模型后，运行命令提示“FileNotFoundError: [Errno 2] No such file or directory: './weights/LongCat-Video/config.json'”，怎么办？

A4：表示模型目录结构错误，解决方案如下：

检查目录：确保./weights/LongCat-Video目录下直接包含config.json、pytorch_model.bin等文件，而非嵌套在子目录（如./weights/LongCat-Video/LongCat-Video/config.json是错误的，需删除外层子目录）；
重新下载：若目录结构混乱，删除./weights/LongCat-Video目录，重新执行下载命令，确保--local-dir参数正确。

Q5：单GPU推理速度慢（生成15秒视频需10分钟以上），如何优化？

A5：可通过以下方式提升推理速度：

启用--enable_compile参数：该参数可通过PyTorch编译优化提升约1.5倍速度，是最有效的优化手段；
降低分辨率/帧率：在运行命令中添加--resolution 360p（降低分辨率）或--fps 20（降低帧率），生成速度可提升50%，但视觉质量会略有下降；
使用FlashAttention-3：执行pip install flash_attn==2.8.0（需GPU驱动≥535），并在配置文件中修改attention_type = "flash3"，比FlashAttention-2快约20%；
清理内存：关闭其他占用GPU内存的程序（如PyCharm、浏览器），确保GPU内存充足（推理时显存占用应≤90%）。

Q6：多GPU推理时提示“RuntimeError: Expected to have context parallel size equal to the number of GPUs”，如何解决？

A6：该错误表示--context_parallel_size参数与GPU数量不匹配，解决方案如下：

若使用2张GPU：确保命令中包含--nproc_per_node=2和--context_parallel_size=2（两个参数值必须一致）；
若使用4张GPU：修改为--nproc_per_node=4和--context_parallel_size=4；
检查GPU数量：执行nvidia-smi确认可用GPU数量，避免指定超过实际数量的GPU（如只有1张GPU却指定2张）。

Q7：生成的视频出现颜色漂移（如前5秒是红色，后10秒变成粉色），怎么办？

A7：颜色漂移是长视频生成的常见问题，解决方案如下：

启用“长视频模式”：对于Long-Video Generation任务，确保使用run_demo_long_video.py脚本（而非run_demo_text_to_video.py），该脚本针对长视频做了颜色一致性优化；
减少视频长度：若生成2分钟视频仍有漂移，可先生成1分钟视频，再通过Video-Continuation功能续接（分两段生成，颜色一致性更好）；
优化prompt：在prompt中添加颜色描述（如“consistent color tone, no color drift”），引导模型保持颜色稳定。

Q8：生成的视频与文本prompt不匹配（如prompt是“猫”，却生成了“狗”），如何改善？

A8：文本对齐度问题可通过以下方式改善：

优化prompt：prompt需详细、具体，避免模糊描述，例如将“猫”改为“A small white cat with blue eyes, sitting on a sofa, realistic style”，包含物种、颜色、动作、场景等信息；
增加prompt权重：在关键词前添加(keyword:1.5)，提升关键词的影响力，例如“(A small white cat:1.5) with blue eyes, sitting on a sofa”；
更新模型：访问Hugging Face模型页面，查看是否有更新版本（美团可能会发布微调后的模型），更新模型后文本对齐度可能提升。

Q9：LongCat-Video是否允许商用？需要标注来源吗？

A9：根据MIT许可证：

允许商用：可将生成的视频用于商业用途（如广告、电商展示、付费课程），无需向美团支付费用；
标注要求：MIT许可证未强制要求标注来源，但建议在产品说明或 credits 中注明“Video generated using LongCat-Video (by Meituan LongCat Team)”，以尊重开源贡献；
禁止行为：不得将模型权重或代码用于违法用途（如生成虚假信息、侵权内容），不得使用美团的商标或专利（如不得宣称“美团官方视频工具”）。

Q10：使用LongCat-Video生成的视频，是否需要获取美团的授权？

七、相关链接

GitHub代码仓库：https://github.com/meituan-longcat/LongCat-Video
Hugging Face模型页面：https://huggingface.co/meituan-longcat/LongCat-Video
技术报告：https://github.com/meituan-longcat/LongCat-Video/blob/main/longcatvideo_tech_report.pdf

八、总结

LongCat-Video是美团LongCat团队推出的一款高质量开源视频生成模型，以13.6B密集型参数为基础，通过统一架构实现Text-to-Video、Image-to-Video、Video-Continuation三大任务的原生支持，核心优势在于分钟级长视频生成能力（无质量衰减）、高效推理优化（时空双轴粗细生成+Block Sparse Attention）及多奖励RLHF带来的商业级性能，且遵循MIT许可证，免费开放给开发者使用。从技术设计来看，其密集型架构兼顾稳定性与部署门槛，推理优化策略降低了硬件需求，评估结果证明其在开源模型中处于第一梯队；从应用价值来看，其覆盖内容创作、电商、教育、影视等多场景，能帮助开发者快速实现视频生成需求，尤其适合中小团队或个人开发者（无需高昂的商业模型费用）。整体而言，LongCat-Video不仅是一款优秀的视频生成工具，也为开源视频生成领域提供了“多任务统一+长视频优化”的技术参考，推动了视频AI技术的普及与应用。

视频生成模型文本转视频图像转视频开源AI模型

打赏

版权及免责申明：本文由@AI工具箱原创发布。该文章观点仅代表作者本人，不代表本站立场。本站不承担任何相关法律责任。

如若转载，请注明出处：https://www.aipuzi.cn/ai-news/longcat-video.html

THE END

AI工具箱

一个喜欢收集AI工具的小萌新

+ 关注

LongCat-Video：美团开源的13.6B参数多任务视频生成模型，高效输出分钟级720p长视频

文章目录

一、LongCat-Video是什么？

二、LongCat-Video的功能特色

1. 统一架构：单模型覆盖多任务，无需切换成本

2. 长视频生成：分钟级输出，无质量衰减

3. 高效推理：分钟级生成720p视频，资源占用可控

（1）时空双轴粗细生成策略

（2）Block Sparse Attention（块稀疏注意力）

4. 多奖励RLHF：性能比肩商业方案

三、LongCat-Video的技术细节

1. 模型架构：13.6B密集型设计，兼顾性能与稳定性

2. 训练策略：原生预训练+多奖励RLHF，双阶段优化

（1）预训练阶段：以Video-Continuation为核心，夯实长视频能力

（2）RLHF微调阶段：多奖励GRPO，贴近人类偏好

3. 推理优化：多维度降低使用门槛

（1）注意力框架兼容

（2）编译优化

（3）多GPU并行策略

4. 评估体系：内部MOS基准，全面衡量性能

（1）Text-to-Video任务评估（内部基准）

（2）Image-to-Video任务评估（内部基准）

四、LongCat-Video的应用场景

1. 内容创作：快速生成短视频素材

（1）Text-to-Video：脚本→视频

（2）Image-to-Video：静态插画→动态短片

2. 电商：商品动态展示

（1）Image-to-Video：商品主图→演示视频

（2）Video-Continuation：短演示→长教程

3. 教育：教学素材可视化

（1）Text-to-Video：知识点→动画视频

（2）Image-to-Video：知识点图示→动态讲解

4. 影视与游戏：辅助内容生产

（1）Video-Continuation：影视片段→续接创意

（2）Text-to-Video：游戏剧情→过场动画

五、LongCat-Video的使用方法

1. 环境准备：安装依赖

（1）硬件要求

（2）软件安装步骤

步骤1：克隆代码仓库

步骤2：创建并激活Conda环境

步骤3：安装PyTorch（带CUDA支持）

步骤4：安装FlashAttention

步骤5：安装其他依赖

2. 模型下载：获取权重文件

步骤1：安装huggingface-cli

步骤2：登录Hugging Face（可选）

步骤3：下载模型至本地

3. 运行各任务：命令详解

命令参数说明：

示例：生成“15秒秋日公园小猫”视频

4. Streamlit可视化：更直观的操作界面

六、常见问题解答（FAQ）

七、相关链接

八、总结

相关文章