AutoMV：开源多智能体音乐视频生成系统，一键实现全长歌曲到连贯MV的自动化创作

原创发布日期：2026-01-04

109

一、AutoMV是什么？

AutoMV是一款基于多智能体架构的开源音乐视频（MV）自动生成系统，无需额外训练即可直接从全长歌曲输出连贯、高质量的长格式MV。该系统整合音乐信号分析、智能脚本编写、角色一致性管理、自适应视频生成及多模态验证五大核心模块，依托SongFormer、Whisper、htdemucs等成熟工具与Gemini、Doubao等API，实现从音乐解析到MV成品的全流程自动化。其首创全曲MV基准数据集，涵盖12项细粒度评估标准，在30首专业歌曲测试中表现优于主流商业系统，以$10-20的成本、约30分钟的耗时，为音乐创作者、自媒体人、影视制作团队提供高效、低成本的MV制作解决方案，显著降低高质量MV的创作门槛。

二、功能特色

AutoMV以“全流程自动化、高质量输出、低使用门槛”为核心设计理念，具备以下五大核心功能特色，覆盖MV制作从前期解析到后期输出的全链条需求：

1. 全维度音乐理解与智能预处理

AutoMV搭载成熟的音乐信号处理工具链，能够对输入歌曲进行多维度解析，为后续MV创作提供精准依据：

节拍追踪与结构分割：通过SongFormer工具自动识别歌曲的节拍、段落（如主歌、副歌、间奏），实现MV场景切换与音乐结构的精准匹配；
人声/伴奏分离：借助htdemucs工具分离歌曲中的人声音频与伴奏音频，为人声片段的唇同步视频生成、场景氛围适配提供基础；
智能歌词转录：通过OpenAI的Whisper模型，自动识别歌词内容并添加时间戳，确保MV画面与歌词演唱节奏精准对齐；
音乐属性描述：利用Qwen2.5-Omni多模态模型，生成歌曲的流派（如流行、摇滚、古典）、情绪（如欢快、悲伤、激昂）、歌手属性（如性别、声线特点）等描述信息，为MV的视觉风格、色彩搭配提供指导。

2. 多智能体协同创作，兼顾专业性与逻辑性

AutoMV创新性地引入三大智能体（Agent），模拟专业MV制作团队的工作流程，确保作品的叙事逻辑与视觉专业度：

编剧智能体（Screenwriter Agent）：基于音乐解析结果，自动生成MV的叙事描述、场景总结与角色设定。例如，针对欢快的流行歌曲，会设计阳光、活泼的场景与角色形象；针对悲伤的抒情歌曲，则会构建内敛、氛围感强的叙事框架；
导演智能体（Director Agent）：将编剧智能体的输出转化为可执行的镜头级脚本，包括镜头类型（如全景、特写）、相机运动指令（如推、拉、摇、移）、画面生成提示词（Prompt）等，确保每个镜头的拍摄逻辑符合影视创作规范；
验证器智能体（Verifier Agent）：作为“质量把关人”，从物理真实性（如人物动作合理性）、指令遵循度（如镜头是否符合脚本要求）、角色一致性（如同一角色在不同镜头中的形象统一）三个维度进行校验，过滤不合格片段并重新生成，保障MV整体质量。

3. 结构化角色库，保障跨场景一致性

长格式MV制作的核心痛点之一是角色在不同镜头、场景中的形象一致性，AutoMV通过结构化角色库解决这一问题：

角色属性全覆盖：角色库包含面部特征（如脸型、五官风格）、发型、肤色、服装、性别、年龄等结构化描述信息，用户可直接使用默认角色或自定义配置；
跨镜头身份稳定：系统会自动将角色库信息嵌入各镜头生成指令，确保同一角色在全景、特写、不同场景中的形象保持一致，避免出现“换脸”“换装”等违和问题。

4. 多后端自适应视频生成，兼顾通用性与专项需求

AutoMV支持多款视频生成后端，可根据不同场景自动适配，平衡生成效率、效果与成本：

Doubao Video API：适用于通用电影级镜头生成，擅长营造氛围感、场景感强的画面，生成速度较快；
Qwen-Wan 2.2：专注于人声片段的唇同步视频生成，基于分离后的人声干声，实现人物唇部动作与演唱节奏的精准匹配；
关键帧引导技术：通过首帧关键帧生成+跨镜头连续性优化，确保不同片段之间的画面过渡自然，避免视觉跳跃，提升MV整体连贯性。

5. 首创全曲MV基准数据集，标准化评估体系

为解决MV生成领域缺乏统一评估标准的问题，AutoMV构建了首个全曲MV基准数据集，涵盖4大类别12项细粒度评估标准，评估方式结合LLM裁判与人类专家评分，确保结果客观可信：

评估大类	细粒度评估标准	核心评估目标
技术质量（Technical）	画面清晰度、帧率稳定性、色彩还原度	视频基础技术指标是否达标
后期制作（Post-production）	剪辑流畅度、转场自然度、音视频同步性	后期处理是否符合专业规范
内容相关性（Content）	主题契合度、歌词画面匹配度、节奏适配性	画面内容是否与音乐高度相关
艺术表现力（Art）	视觉美感、氛围营造、叙事完整性	作品的艺术感染力与叙事逻辑

评估工具方面，采用ImageBind Score（IB）衡量音视频跨模态相似度，同时借助Gemini-2.5-Pro/Flash等多模态LLM进行自动化评分，结合音乐制作人、MV导演、行业从业者的人工评分（1-5分制），形成全方位评估体系。

三、技术细节

AutoMV的技术核心是“多模块协同+成熟工具链整合”，其系统架构分为四大核心阶段，各阶段通过标准化接口衔接，确保流程顺畅高效：

1. 系统整体架构

AutoMV的工作流程可分为四个关键阶段，形成“输入-处理-生成-验证-输出”的闭环：

音乐预处理阶段：输入全长歌曲（.mp3/.wav格式），通过SongFormer、htdemucs、Whisper、Qwen2.5-Omni等工具完成节拍追踪、结构分割、人声分离、歌词转录、音乐描述生成，输出结构化音乐信息；
智能体创作阶段：编剧智能体基于结构化音乐信息生成叙事框架与角色设定，导演智能体将其转化为镜头脚本与生成指令，输出可执行的画面生成任务列表；
视频生成阶段：根据任务列表，自适应选择Doubao Video API或Qwen-Wan 2.2后端，结合关键帧引导技术生成各片段视频，同时确保跨镜头连续性；
验证与组装阶段：验证器智能体对生成的视频片段进行质量校验，过滤不合格片段并重新生成，最后将通过校验的片段按音乐结构与脚本顺序合并，输出完整MV。

2. 核心技术依赖与工具链

AutoMV无需从零构建模型，而是基于现有成熟工具与API进行整合优化，核心技术依赖如下表所示：

技术模块	核心工具/模型	功能作用
音乐结构解析	SongFormer	节拍追踪、歌曲段落分割
人声/伴奏分离	htdemucs	分离人声音频与伴奏音频
歌词转录	Whisper Large-v2	带时间戳的歌词自动识别
音乐描述生成	Qwen2.5-Omni-7B	生成流派、情绪、歌手属性等描述
视频生成（通用镜头）	Doubao Video API	电影级场景、通用镜头生成
视频生成（唇同步）	Qwen-Wan 2.2	基于人声的唇同步视频生成
质量验证	Gemini-2.5-Pro/Flash	多模态LLM自动评分、质量校验
音视频处理	ffmpeg、pydub	音频切割、视频合并、格式转换

3. 关键技术亮点

（1）跨模态联动技术

AutoMV通过ImageBind Score（IB）实现音视频跨模态相似度计算，确保画面内容与音乐节奏、情绪、主题高度契合。例如，在快节奏的副歌部分，系统会自动生成动态感强、镜头切换频繁的画面；在舒缓的间奏部分，则会适配慢镜头、静态场景，实现“音画合一”。

（2）角色一致性保障机制

通过结构化角色库与统一的生成指令模板，将角色属性（如面部特征、服装风格）嵌入每个镜头的生成Prompt中，同时利用验证器智能体对角色形象进行跨镜头比对，避免因生成模型的随机性导致角色形象漂移。

（3）自适应后端调度策略

系统根据任务类型（通用镜头/唇同步镜头）、用户成本预算、设备资源自动选择生成后端：若用户追求快速生成且预算充足，优先使用Doubao Video API；若用户希望降低成本（无需API调用费）且具备GPU资源，可选择本地部署Qwen-Wan 2.2模型进行唇同步视频生成。

（4）长格式视频连贯性优化

针对长格式MV的片段衔接问题，AutoMV采用“首帧关键帧统一+转场指令嵌入”策略：每个段落的首帧由统一的关键帧生成模块输出，确保视觉风格一致；同时，导演智能体在脚本中加入转场指令（如淡入淡出、溶解），并通过验证器智能体检查转场自然度，避免片段之间的视觉跳跃。

四、应用场景

AutoMV凭借“自动化、低成本、高质量”的核心优势，适用于多种场景，覆盖个人创作者、中小企业、专业团队等不同用户群体：

1. 独立音乐人与音乐制作团队

独立音乐人往往缺乏MV制作的资金与专业团队支持，AutoMV可帮助其快速生成符合歌曲风格的MV，用于音乐发行、社交媒体推广（如抖音、B站、YouTube），降低作品传播门槛。例如，独立歌手发布新歌后，仅需上传音频文件，即可在30分钟左右获得高质量MV，无需投入数万元的制作费用与数周的制作周期。

2. 自媒体与短视频创作者

自媒体人、短视频博主常需为背景音乐搭配可视化画面，AutoMV可自动生成与BGM节奏、主题匹配的视频片段，用于Vlog、剧情短视频、音乐盘点类内容的制作，提升创作效率。例如，美食博主可上传一首欢快的背景音乐，系统会生成与“美食制作、探店”相关的场景画面，搭配博主拍摄的素材使用，丰富视频内容。

3. 影视制作与广告行业

影视制作公司、广告团队在进行MV初稿创作、创意提案时，可使用AutoMV快速生成多个版本的MV方案，为客户提供直观参考，缩短提案周期。例如，广告公司为品牌推广歌曲制作MV时，可通过AutoMV快速生成2-3个不同风格的方案，根据客户反馈进行优化，减少前期创意落地的时间成本。

4. 教育与培训场景

音乐院校、影视制作培训机构可将AutoMV作为教学工具，帮助学生理解MV创作的流程（如脚本编写、镜头设计、音视频同步），同时让学生通过修改参数（如角色设定、镜头类型），直观感受不同创作决策对最终作品的影响，提升教学效果。

5. 企业宣传与品牌推广

企业在发布品牌主题曲、公益歌曲后，可通过AutoMV快速生成宣传MV，用于官网展示、社交媒体传播、线下活动播放等场景，降低企业的营销内容制作成本。例如，科技公司发布主题曲后，可生成融入产品元素、品牌色调的MV，强化品牌形象传播。

AutoMV：开源多智能体音乐视频生成系统，一键实现全长歌曲到连贯MV的自动化创作

五、使用方法

AutoMV的使用流程清晰，无需专业技术背景，按以下步骤即可完成MV生成。需注意，使用前需准备好Python环境、相关API密钥及必要的硬件资源（若选择本地部署唇同步模型，需GPU支持）。

1. 环境准备与安装

（1）硬件要求

基础配置：CPU≥8核、内存≥16GB（用于基础音乐预处理与API调用生成）；
进阶配置（本地唇同步生成）：GPU≥A100/A800（推荐），显存≥24GB（运行Wan2.2-s2v模型，单首歌处理约4-5小时）。

（2）软件环境

操作系统：Windows/Linux/macOS（推荐Linux，兼容性更佳）；
Python版本：3.10（推荐，避免版本兼容问题）；
依赖管理：pip + conda（用于环境隔离，避免包冲突）。

（3）安装步骤

克隆仓库：打开终端，执行以下命令克隆项目代码到本地：

git clone https://github.com/multimodal-art-projection/AutoMV.git
cd AutoMV

安装基础依赖：先安装SongFormer专属依赖，再安装通用依赖，同时安装ffmpeg（音视频处理工具）：

# 安装SongFormer依赖
pip install -r SongFormer_requirements.txt
# 安装ffmpeg（conda方式，避免环境变量配置问题）
conda install -c conda-forge ffmpeg
# 安装通用依赖
pip install -r requirements.txt

配置环境变量：需在系统环境变量或shell配置文件（如.bashrc、.zshrc）中添加以下变量，用于API调用与存储配置：

# Gemini API密钥（用于验证与评分）
export GEMINI_API_KEY=你的Gemini API密钥
# Doubao API密钥（用于通用视频生成）
export DOUBAO_API_KEY=你的Doubao API密钥
# 阿里云OSS配置（用于文件存储）
export ALIYUN_OSS_ACCESS_KEY_ID=你的阿里云OSS访问ID
export ALIYUN_OSS_ACCESS_KEY_SECRET=你的阿里云OSS访问密钥
export ALIYUN_OSS_BUCKET_NAME=你的阿里云OSS存储桶名称
# 火山引擎配置（可选，用于部分功能）
export HUOSHAN_ACCESS_KEY=你的火山引擎访问密钥
export HUOSHAN_SECRET_KEY=你的火山引擎密钥
# 可选：指定GPU设备（多GPU环境下）
export GPU_ID=0
# Whisper与Qwen模型标识
export WHISPER_MODEL=whisper-large-v2
export QWEN_OMNI_MODEL=Qwen2.5-Omni-7B

注：中国大陆用户需额外设置HF镜像源，避免模型下载失败：

export HF_ENDPOINT=https://hf-mirror.com

2. 预训练模型下载

AutoMV依赖部分预训练模型，需手动下载并配置路径，具体如下：

（1）核心模型下载

模型名称	下载来源	下载链接	用途
Qwen2.5-Omni-7B	ModelScope	https://modelscope.cn/models/qwen/Qwen2.5-Omni-7B	音乐描述生成
Whisper Large-v2	GitHub	https://github.com/openai/whisper	歌词转录
SongFormer	项目内置脚本	无需手动下载，执行下文命令自动获取	音乐结构解析
Wan2.2-s2v（可选）	Hugging Face	https://huggingface.co/Wan-AI/Wan2.2-S2V-14B	本地唇同步生成

（2）模型配置

下载完成后，在项目根目录的config.py文件中指定模型路径：

# Qwen2.5-Omni-7B模型路径
MODEL_PATH_QWEN = "/path/to/Qwen2.5-Omni-7B"
# Whisper Large-v2模型路径
WHISPER_MODEL_PATH = "/path/to/whisper-large-v2"

SongFormer模型自动下载：执行以下命令，通过项目内置脚本获取预训练模型：
```
cd picture_generate/SongFormer/src/SongFormer
python utils/fetch_pretrained.py
```

本地唇同步模型（Wan2.2-s2v）配置（可选）：若需本地生成唇同步视频，需额外执行以下步骤：

# 进入唇同步生成目录
cd generate_lip_video
# 克隆模型仓库
git clone https://huggingface.co/Wan-AI/Wan2.2-S2V-14B
# 创建独立conda环境（避免包冲突）
conda create -n gen_lip python=3.10
conda activate gen_lip
# 安装依赖
pip install requirements.txt
pip install requirements_s2v.txt
# 修改主流水线代码：注释掉默认唇同步函数调用
# 编辑generate_pipeline.py文件，注释以下行：
# gen_lip_sync_video_jimeng(music_video_name, config = Config)

3. 正式生成MV

（1）准备音频文件

将需要生成MV的歌曲（.mp3或.wav格式）放入以下目录，其中{music_name}为自定义项目名称（仅支持英文、数字、下划线）：

./result/{music_name}/{music_name}.mp3

示例：若歌曲名为“summer_dream”，则文件路径为./result/summer_dream/summer_dream.mp3。

（2）配置项目名称

打开config.py文件，将{music_name}替换为你的项目名称（与音频文件目录名称一致），该名称将作为所有中间文件与最终MV的存储标识。

（3）生成各片段首帧图像

首帧图像是后续视频生成的关键参考，执行以下命令生成：

python -m picture_generate.main

该步骤会为每个歌曲段落（主歌、副歌等）生成视觉提示词与关键帧图像，结果存储在result/{music_name}/picture/目录下。

（4）生成完整MV

执行主流水线脚本，系统将自动完成镜头生成、片段校验、合并输出：

python generate_pipeline.py

该步骤的核心流程：

基于脚本生成各段落视频片段；
验证器智能体校验片段质量；
合并所有合格片段，添加转场效果；
输出最终MV文件。

（5）查看输出结果

生成完成后，所有文件存储在result/{music_name}/目录下，核心文件包括：

mv_{music_name}.mp4：最终生成的完整MV（核心输出文件）；
picture/：各段落首帧图像；
output/：各段落生成的视频片段；
story.json：完整MV故事板与脚本；
{music_name}_vocals.wav：分离后的人声音频（可选）。

六、常见问题解答（FAQ）

1. 运行时提示“API密钥无效”或“无法连接API”，如何解决？

检查环境变量配置：确保GEMINI_API_KEY、DOUBAO_API_KEY等密钥输入正确，无多余空格或拼写错误；
网络环境排查：中国大陆用户需确保API可访问（部分海外API需配置代理），阿里云OSS、火山引擎等服务需开通对应权限；
密钥有效性验证：登录对应API平台（如Gemini开发者平台、Doubao开放平台），确认密钥未过期、已启用，且有足够的调用额度。

2. 生成的MV画面与音乐节奏/主题不匹配，如何优化？

检查音乐预处理结果：查看result/{music_name}/目录下的结构化音乐信息文件，确认节拍分割、歌词时间戳是否准确（可重新运行音乐预处理步骤）；
调整生成提示词：手动修改story.json中的场景描述、镜头指令，强化与音乐主题相关的关键词（如“欢快”“悲伤”“都市”等）；
更换生成后端：若使用Doubao Video API效果不佳，可尝试配置Qwen-Wan 2.2本地模型（需GPU支持），或反之。

3. 角色在不同镜头中形象不一致，如何解决？

完善角色库配置：在label.json文件中补充角色的详细属性（如具体发型名称、服装颜色、面部特征描述），避免模糊表述；
重新生成首帧图像：删除picture/目录下的文件，重新运行python -m picture_generate.main，确保首帧角色形象符合预期；
启用严格验证模式：在config.py中设置VERIFIER_STRICT_MODE=True，让验证器智能体更严格地校验角色一致性，过滤形象漂移的片段。

4. 本地部署Wan2.2-s2v模型时，出现包冲突或GPU内存不足，如何处理？

包冲突问题：必须使用独立conda环境（gen_lip）安装依赖，避免与主环境的包版本冲突；
GPU内存不足：关闭其他占用GPU的程序，或降低模型运行批次大小（修改generate_lip_video/config.py中的BATCH_SIZE参数）；若GPU显存≤16GB，不建议本地部署，优先使用Doubao Video API生成唇同步镜头。

5. 生成MV的耗时过长，如何优化？

选择快速生成模式：优先使用API调用（Doubao Video API），避免本地部署大模型（Wan2.2-s2v单首歌需4-5小时）；
简化生成配置：在config.py中减少镜头数量（如缩短副歌部分的镜头切换频率），或降低视频分辨率（默认通常为1080P，可改为720P）；
优化硬件资源：使用CPU≥16核、内存≥32GB的设备，多GPU环境下可指定多个GPU_ID（如GPU_ID=0,1）加速处理。

6. 生成的MV有水印或分辨率不符合要求，如何调整？

水印问题：检查API配置，确保已开通无水印生成权限（部分API默认生成带水印的视频，需升级套餐或申请无水印权限）；
分辨率调整：在config.py中修改VIDEO_RESOLUTION参数（如"1920x1080"为1080P，"1280x720"为720P），重新运行生成脚本。

7. 支持哪些音频格式？能否处理带歌词的音频文件？

支持格式：目前仅支持.mp3和.wav格式，其他格式（如.flac、.m4a）需先通过格式转换工具转为mp3/wav；
带歌词音频：无需额外处理，系统会通过Whisper自动识别歌词，即使音频中已包含歌词轨道，也会重新生成精准的时间戳匹配画面。

七、相关链接

项目开源仓库：https://github.com/multimodal-art-projection/AutoMV
对应论文链接：https://arxiv.org/abs/2512.12196
Qwen2.5-Omni-7B模型下载：https://modelscope.cn/models/qwen/Qwen2.5-Omni-7B
项目官网：https://m-a-p.ai/AutoMV/

八、总结

AutoMV是一款功能全面、易用性强的开源多智能体音乐视频生成系统，通过整合音乐信号分析、智能体创作、多后端视频生成与多模态验证技术，实现了从全长歌曲到连贯高质量MV的全流程自动化。其核心优势在于无需专业训练、低成本高效输出、角色一致性保障与长格式视频连贯性优化，同时首创全曲MV基准数据集，为技术评估提供标准化参考。在30首专业歌曲测试中，AutoMV以$10-20的成本、约30分钟的耗时，取得了优于主流商业系统的性能表现，IB分数达24.4，人类评分2.42，接近人类专家制作水平。该项目适用于独立音乐人、自媒体创作者、影视制作团队等多种用户群体，可广泛应用于音乐推广、短视频创作、品牌宣传等场景，显著降低高质量MV的制作门槛与时间成本，为音视频创作领域提供了高效、便捷的开源解决方案。

打赏

版权及免责申明：本文由@AI工具箱原创发布。该文章观点仅代表作者本人，不代表本站立场。本站不承担任何相关法律责任。

如若转载，请注明出处：https://www.aipuzi.cn/ai-news/automv.html

THE END

AI工具箱

一个喜欢收集AI工具的小萌新

+ 关注

AutoMV：开源多智能体音乐视频生成系统，一键实现全长歌曲到连贯MV的自动化创作

文章目录

一、AutoMV是什么？

二、功能特色

1. 全维度音乐理解与智能预处理

2. 多智能体协同创作，兼顾专业性与逻辑性

3. 结构化角色库，保障跨场景一致性

4. 多后端自适应视频生成，兼顾通用性与专项需求

5. 首创全曲MV基准数据集，标准化评估体系

三、技术细节

1. 系统整体架构

2. 核心技术依赖与工具链

3. 关键技术亮点

（1）跨模态联动技术

（2）角色一致性保障机制

（3）自适应后端调度策略

（4）长格式视频连贯性优化

四、应用场景

1. 独立音乐人与音乐制作团队

2. 自媒体与短视频创作者

3. 影视制作与广告行业

4. 教育与培训场景

5. 企业宣传与品牌推广

五、使用方法

1. 环境准备与安装

（1）硬件要求

（2）软件环境

（3）安装步骤

2. 预训练模型下载

（1）核心模型下载

（2）模型配置

3. 正式生成MV

（1）准备音频文件

（2）配置项目名称

（3）生成各片段首帧图像

（4）生成完整MV

（5）查看输出结果

六、常见问题解答（FAQ）

1. 运行时提示“API密钥无效”或“无法连接API”，如何解决？

2. 生成的MV画面与音乐节奏/主题不匹配，如何优化？

3. 角色在不同镜头中形象不一致，如何解决？

4. 本地部署Wan2.2-s2v模型时，出现包冲突或GPU内存不足，如何处理？

5. 生成MV的耗时过长，如何优化？

6. 生成的MV有水印或分辨率不符合要求，如何调整？

7. 支持哪些音频格式？能否处理带歌词的音频文件？

七、相关链接

八、总结

相关文章