Paper2Video:新加坡国立大学开源的论文转学术演示视频方案

原创 发布日期:
2

一、Paper2Video是什么

Paper2Video是新加坡国立大学Show Lab开发的开源学术工具,核心定位是解决学术领域“演示视频制作效率低”与“质量评估无标准”两大痛点。该工具通过PaperTalker智能代理,以LaTeX论文源码、参考肖像图及10秒参考音频为输入,自动生成包含结构化幻灯片、时间对齐字幕、个性化语音、动态光标与虚拟主讲人的完整演示视频;同时通过Paper2Video基准,提出Meta Similarity(内容/音频一致性)、PresentArena(VideoLLM偏好)、PresentQuiz(知识传递效果)、IP Memory(作者价值体现)四大专属指标,摆脱传统视频评估对“视觉保真度”的依赖。

工具支持闭源模型(GPT-4.1、Gemini2.5-Pro)与开源模型(Qwen-72B、InternVL-2),需配置双Conda环境避免依赖冲突,最低硬件要求为NVIDIA A6000(48G显存),适用于科研人员、学生、学术会议组织者及教育机构,可高效满足会议报告、课程演示、论文推广等场景的视频制作与质量验证需求。

为更清晰理解其定位,可对比传统工具:

对比维度 Paper2Video 传统视频工具(剪映、Runway) 学术幻灯片工具(LaTeX Beamer、PPT)
核心场景 学术演示视频(论文解读、会议报告) 泛娱乐/商业视频(短视频、广告) 静态幻灯片制作(需手动搭配语音)
输入要求 LaTeX论文源码+参考图+参考音频 文本/图片/视频片段(需人工整理) 手动输入内容+设计排版
自动化程度 全流程自动化(内容提取→多模态整合) 半自动化(需手动剪辑、调整同步) 全手动(每页幻灯片需单独设计)
评估能力 支持学术专属评估(知识传递、作者价值) 仅视觉指标(清晰度、流畅度) 无评估功能
学术适配性 自动修复LaTeX格式,适配公式/图表 无学术适配(公式易变形) 需手动调试格式(如公式截断问题)

二、功能特色

Paper2Video的功能围绕“生成”与“评估”两大模块展开,两者相互支撑,覆盖学术视频从“制作”到“检验”的全流程需求。

1. 生成模块:PaperTalker智能代理——零人工干预的论文转视频

PaperTalker是生成模块的核心,整合5个子模块(幻灯片、字幕、光标、语音、虚拟主讲人),能将抽象的LaTeX论文转化为具象的演示视频,核心特色是“学术适配”与“个性化”。

(1)输入与输出规格

  • 核心输入:需3类基础数据,无需额外人工整理:

  1. LaTeX论文源码目录(通过--paper_latex_root参数指定,需包含主.tex文件及图片、参考文献等依赖);

  2. 参考肖像图(方形,如作者照片,用于生成虚拟主讲人外观,分辨率建议≥512×512);

  3. 参考音频(10秒左右.wav文件,用于匹配语音风格,如音色、语速,无杂音最佳)。

  • 可选输入:支持自定义风格,如通过--ref_text指定字幕风格(“简洁型”“详细型”),通过--beamer_templete_prompt指定幻灯片风格(“ICLR会议风格”“教学风格”);

  • 最终输出:1080P完整演示视频(.mp4格式),包含5大元素:结构化幻灯片(无格式错误)、时间对齐字幕(误差<0.5秒)、个性化语音(匹配参考音频风格)、动态光标(指向当前讲解内容)、虚拟主讲人(外观匹配参考图,口型同步语音)。

(2)核心子模块功能

子模块名称 核心作用 技术亮点
幻灯片生成器 从LaTeX提取内容(章节、公式、图表),修复格式错误(如“未定义控制序列”),优化布局 树搜索优化:自动生成3-5种布局方案,用VLM筛选“公式不截断、图表不压缩”的最优方案,无需手动调整
字幕生成器 结合语音节奏生成字幕,确保“语音说哪句,字幕显哪句” 时间精准对齐:基于WhisperX模型标记语音时间戳,避免“字幕超前/滞后”问题
光标生成器 模拟人类讲解逻辑,自动指向当前内容(如讲公式时指向公式,讲图表时指向数据点) 内容-光标联动:无需人工标注,通过VLM识别“重点内容”,同步生成光标轨迹
语音合成器 将论文内容转化为自然口语(避免机械念稿),音色匹配参考音频 学术口语化:自动将“专业术语”转化为易懂表达(如“SSL”解释为“自监督学习”),兼顾专业与通俗
虚拟主讲人生成器 从参考图生成“说话脸”视频,口型与语音同步 低依赖:需单独配置Hallo2环境(避免包冲突),1分钟视频约5分钟渲染(NVIDIA A6000)

2. 评估模块:Paper2Video基准——学术视频专属评估体系

传统视频评估指标(如FVD、CLIP相似度)只看“画面好不好看”,但学术视频的核心是“能否传递知识”。Paper2Video提出4个专属指标,从“观众体验”和“作者价值”双维度评估:

评估指标 评估维度 核心逻辑 执行方式
Meta Similarity 内容一致性+音频一致性 对比“机器生成视频”与“人类制作视频”:
- 内容相似度:核心知识点(方法、实验结论)覆盖度;
- 音频相似度:语音风格(音色、语速)匹配度
运行MetaSim_content.py(内容)和MetaSim_audio.py(音频),输出0-100分(分数越高越接近人类视频)
PresentArena 整体质量偏好 让VideoLLM(如GPT-4V)扮演“观众”,对比两类视频,判断哪者更适合学术演示 运行PresentArena.py,输出“机器视频偏好率”(如30%表示30%场景下机器视频更优)
PresentQuiz 知识传递效果 从论文自动生成题库(如“SSL最常见的架构是什么?”),测试视频能否让观众答对 先运行create_paper_questions.py生成题库,再用PresentQuiz.py测试,输出正确率(越高传递效果越好)
IP Memory 作者价值体现 评估视频是否凸显“作者身份”(如单位)与“核心贡献”(如创新点) 运行construct.py生成作者相关问题,再用ip_qa.py测试,输出0-100分(分数越高作者价值越突出)

Paper2Video:新加坡国立大学开源的论文转学术演示视频方案

三、技术细节

Paper2Video的技术架构围绕“模块化、低耦合、高适配”设计,核心依赖大语言模型(LLM)、视觉语言模型(VLM)与专用生成模型,同时通过双环境配置解决依赖冲突。

1. 核心技术依赖与硬件要求

(1)技术依赖(推荐模型与替代方案)

依赖类型 推荐模型/工具 作用 开源替代方案(本地部署)
LLM(文本处理) GPT-4.1、Gemini2.5-Pro 提取论文内容、生成字幕文本、优化讲解语言 Qwen-72B、Llama 3(需配置本地路径)
VLM(视觉处理) GPT-4.1(多模态版) 优化幻灯片布局、实现光标-内容对齐、评估视觉适配性 InternVL-2、Qwen-VL(需安装对应依赖)
虚拟主讲人模型 Hallo2 生成“说话脸”视频,实现口型与语音同步 暂不支持其他模型(文档明确适配Hallo2)
幻灯片基础工具 Paper2Poster 提供LaTeX幻灯片生成框架,Paper2Video在此基础上优化布局 无(需依赖该工具)
语音对齐工具 WhisperX 实现语音-字幕-光标的时间同步(精度达0.01秒) 无(需依赖该工具)

(2)硬件要求(确保流畅运行)

硬件组件 最低要求 推荐配置 作用
GPU NVIDIA A6000(48G显存) NVIDIA H100(80G显存) 运行Hallo2生成虚拟主讲人、并行处理多模块、加速VLM推理
CPU Intel Xeon Gold 6338(16核) Intel Xeon Platinum 8480(32核) 处理LaTeX解析、文件IO等轻量任务
内存(RAM) 64GB 128GB 存储LaTeX源码、模型权重(Hallo2权重约10GB)、临时生成文件
硬盘空间 500GB(SSD) 1TB(SSD) 存储Conda环境、依赖工具、生成的视频文件(10分钟视频约占500MB)

2. 核心技术流程(5步生成完整视频)

Paper2Video的生成流程分为5个独立步骤,支持单独运行(通过--stage参数控制,如--stage="[1,2]"仅生成幻灯片与字幕),具体逻辑如下:

  1. 论文解析(LaTeX解析模块)
    输入LaTeX源码目录,先解析.tex文件语法,提取文本、公式、图表及对应说明,再按“摘要→方法→实验→结论”排序内容(确保讲解逻辑连贯),输出“结构化内容清单”(如“摘要:XXX;方法:Forward-Forward算法,步骤1XXX…”)。

  2. 幻灯片生成(幻灯片生成器)
    基于结构化内容与可选的风格提示,先用树搜索生成3-5种布局方案,再用VLM筛选“无格式错误、内容密度适中”的方案,自动修复LaTeX语法错误(如补充缺失的包引用),输出优化后的LaTeX幻灯片源码与PDF预览。

  3. 多模态生成(字幕+语音+光标)
    先通过语音合成器将幻灯片内容转化为口语化语音(匹配参考音频风格);再用WhisperX标记语音时间戳,生成同步字幕;最后通过VLM识别幻灯片中的“重点内容”,生成光标轨迹文件,三者时间精准对齐(误差<0.5秒)。

  4. 虚拟主讲人生成(Hallo2模型)
    调用Hallo2环境,从参考图提取面部特征,基于语音文件生成口型序列,合成“面部+口型”视频(外观匹配参考图,口型与语音同步),输出虚拟主讲人视频片段(.mp4格式)。

  5. 视频合成(整合模块)
    按时间轴整合所有元素:幻灯片居中显示,虚拟主讲人放在右下角(大小占画面1/4),字幕在底部,光标随讲解动态移动,调整语音音量(无背景音),输出1080P完整演示视频。

3. 关键技术亮点

  • 树搜索布局优化:针对学术幻灯片“公式多、图表多”的特点,优先保证“公式不截断、图表不压缩”,避免传统工具中“文字重叠”的问题;

  • 跨模块时间对齐:通过WhisperX实现“语音-字幕-光标”三联同步,模拟真实人类讲解体验(如说“看这个公式”时,光标同步指向公式);

  • 双环境隔离设计:Hallo2模型依赖的PyTorch版本与LLM/VLM不同,单独配置环境避免“包版本冲突导致某模块崩溃”,降低部署难度。

四、应用场景

Paper2Video的应用场景聚焦学术领域,覆盖“内容生产”与“质量检验”,以下为核心适用场景:

1. 科研人员:快速制作会议报告与论文推广视频

  • 痛点:学术会议(如NeurIPS、ICLR)常要求提交演示视频,手动制作需1-2天(设计幻灯片、录制语音、剪辑视频),且易出现“公式变形”“字幕不同步”;

  • 解决方案:仅需提供LaTeX论文、个人照片与10秒语音,1-2小时生成符合会议规范的视频,虚拟主讲人外观与自己一致,语音风格匹配;

  • 优势:节省时间成本,视频自动突出核心贡献(如实验结论、创新点),提升报告专业度。

2. 高校学生:轻松完成课程作业与答辩预习

  • 痛点:课程要求提交“论文解读视频”,学生缺乏视频制作经验,易出现“内容不完整”“讲解机械”;答辩前独自练习无反馈,无法判断演示效果;

  • 解决方案:提交课程论文的LaTeX源码,自动生成“易懂型”视频(术语有解释);用Paper2Video基准评估(如PresentQuiz测试知识点覆盖度),针对性优化答辩内容;

  • 优势:无需学习剪辑工具,评估结果提供“优化建议”(如“某实验未详细说明,建议补充”),提升作业与答辩质量。

3. 学术会议组织者:批量审核演示视频质量

  • 痛点:大型会议(如ICML)收到数百份视频,人工审核需判断“是否传递完整内容”“是否符合规范”,耗时耗力且主观偏差大;

  • 解决方案:用Paper2Video基准批量评估,自动筛选“知识传递差”(PresentQuiz正确率<60%)或“作者信息缺失”(IP Memory<50分)的视频,仅对合格视频人工复核;

  • 优势:审核效率提升5-10倍,避免“不同审核者标准不一”的问题。

4. 教育机构:制作教材配套演示视频

  • 痛点:教材中的经典论文(如“注意力机制论文”)需要配套视频帮助学生理解,但手动制作成本高,且难以保证“专业性与易懂性平衡”;

  • 解决方案:用Paper2Video将教材论文转化为“教学型”视频(语速慢、字幕详细),自定义添加“知识点注释”(如在公式旁标注“核心参数”);

  • 优势:视频内容与教材完全匹配,可作为课堂补充材料或线上课程资源,降低教师制作负担。

Paper2Video:新加坡国立大学开源的论文转学术演示视频方案

五、使用方法

Paper2Video的使用需按“环境准备→LLM配置→推理执行→评估验证”流程操作,所有步骤通过命令行完成,需严格遵循(避免依赖冲突)。

1. 环境准备(核心:双Conda环境)

(1)主环境(p2v):负责论文解析、幻灯片/字幕/光标/语音生成

# 1. 克隆仓库(若已下载可跳过)
git clone https://github.com/showlab/Paper2Video.git
cd Paper2Video

# 2. 进入源码目录,创建并激活主环境(Python 3.10)
cd src
conda create -n p2v python=3.10 # 环境名:p2v
conda activate p2v

# 3. 安装主环境依赖
pip install -r requirements.txt # 包含LLM/VLM调用库、LaTeX解析库等

# 4. 克隆依赖项目(Paper2Poster用于幻灯片,Hallo2用于虚拟主讲人)
git clone https://github.com/fudan-generative-vision/hallo2.git
git clone https://github.com/Paper2Poster/Paper2Poster.git

# 5. 验证环境:无报错则正常
python -c "import torch; print('PyTorch版本:', torch.__version__)"
python -c "from paper2poster import SlideGenerator; print('Paper2Poster导入成功')"

(2)Hallo2环境(hallo):单独用于虚拟主讲人生成

# 1. 进入Hallo2目录
cd hallo2 # 路径:Paper2Video/src/hallo2

# 2. 创建并激活环境
conda create -n hallo python=3.10 # 环境名:hallo
conda activate hallo

# 3. 安装Hallo2依赖
pip install -r requirements.txt

# 4. 下载Hallo2模型权重(按官网指引,放入hallo2/weights目录)
# 参考:https://github.com/fudan-generative-vision/hallo2#model-zoo

# 5. 记录Hallo2的Python路径(后续需用到)
which python # 示例输出:/home/user/miniconda3/envs/hallo/bin/python

2. LLM/VLM配置(闭源API或开源模型)

(1)使用闭源模型(推荐:效果最佳)

# 在主环境(p2v)中导出API密钥
export GEMINI_API_KEY="你的Gemini密钥" # 从Google AI Studio获取
export OPENAI_API_KEY="你的OpenAI密钥" # 从OpenAI平台获取
  • 注意:确保API密钥有“多模态权限”(如GPT-4.1需开启Vision功能)。

(2)使用开源模型(如Qwen-72B)

# 1. 参考Paper2Poster文档部署开源模型(路径:src/Paper2Poster/docs/开源模型部署.md)
# 2. 修改配置文件:src/config/model_config.py
MODEL_CONFIG = {
  "llm": {
    "name": "qwen-72b",
    "path": "/path/to/qwen-72b", # 本地模型路径
    "device": "cuda:0"
  },
  "vlm": {
    "name": "internvl-2",
    "path": "/path/to/internvl-2",
    "device": "cuda:1"
  }
}

3. 推理执行(生成演示视频)

(1)完整命令示例(以Hinton论文为例)

# 确保处于主环境(p2v)
conda activate p2v
cd Paper2Video/src

# 运行全流程生成
python pipeline.py \
  --model_name_t gpt-4.1 \ # LLM模型(文本处理)
  --model_name_v gpt-4.1 \ # VLM模型(视觉处理)
  --model_name_talking hallo2 \ # 虚拟主讲人模型
  --result_dir ./output_hinton \ # 输出目录
  --paper_latex_root ./hinton_paper_latex \ # LaTeX论文目录
  --ref_img ./hinton_photo.png \ # 参考图片
  --ref_audio ./hinton_10s.wav \ # 参考音频
  --talking_head_env /home/user/miniconda3/envs/hallo/bin/python \ # Hallo2路径
  --gpu_list [0,1,2,3] \ # 用于并行的GPU
  --if_tree_search True \ # 开启树搜索优化布局
  --ref_text "字幕:简洁,含核心术语解释" \ # 字幕风格
  --beamer_templete_prompt "幻灯片:ICLR 2025风格,白色背景" # 幻灯片风格

(2)关键参数解释

参数名称 作用
--result_dir 存储输出文件(幻灯片、字幕、视频等),建议为每个论文单独创建目录
--paper_latex_root 必须指定正确的LaTeX根目录(包含主.tex文件),否则无法提取内容
--talking_head_env 必须正确填写Hallo2的Python路径,否则虚拟主讲人无法生成
--if_tree_search 建议开启(True),虽耗时增加20%,但能避免幻灯片格式错误
--stage 调试用参数,如--stage="[1]"仅生成幻灯片,无需运行后续模块

(3)生成结果查看

--result_dir目录下会生成:

  • slides/:LaTeX幻灯片源码与PDF;

  • subtitles/:.srt字幕文件;

  • audio/:.wav语音文件;

  • talking_head/:虚拟主讲人视频;

  • final_video.mp4:完整演示视频(最终文件)。

4. 评估执行(验证视频质量)

(1)评估环境准备

# 1. 进入评估目录
cd Paper2Video/src/evaluation

# 2. 创建并激活评估环境
conda create -n p2v_e python=3.10
conda activate p2v_e

# 3. 安装依赖
pip install -r requirements.txt

# 4. 配置API密钥(评估需用VideoLLM)
export OPENAI_API_KEY="你的OpenAI密钥"

(2)执行评估与结果解读

# 1. 评估Meta Similarity(内容+音频)
python MetaSim_content.py --r ./output_hinton --g ./human_video_hinton --s ./eval_results
python MetaSim_audio.py --r ./output_hinton --g ./human_video_hinton --s ./eval_results

# 2. 评估PresentQuiz(知识传递效果)
cd PresentQuiz
python create_paper_questions.py --paper_folder ./hinton_paper_latex # 生成题库
python PresentQuiz.py --r ./output_hinton --g ./human_video_hinton --s ../eval_results

评估结果以JSON格式存储(如eval_results/meta_sim_content.json),示例:

{
 "论文名称": "The Forward-Forward Algorithm",
 "Meta Similarity(内容)": 85.2, # 接近人类视频
 "PresentQuiz(正确率)": 90%, # 知识传递效果好
 "优化建议": "音频相似度略低,建议重新录制参考音频(减少杂音)"
}

六、常见问题解答(FAQ)

常见问题 可能原因 解决方案
运行pipeline.py提示“未找到main.tex” 1. --paper_latex_root路径错误;
2. LaTeX主文件不是main.tex(如paper.tex)
1. 确认路径(如--paper_latex_root ./hinton_paper而非./hinton_paper/src);
2. 修改src/config/latex_config.pyMAIN_TEX = "paper.tex"
虚拟主讲人视频生成失败,提示“Hallo2错误” 1. --talking_head_env路径错误;
2. Hallo2依赖未安装完整
1. 在hallo环境中重新运行which python,更新路径;
2. 进入hallo环境,重新安装依赖:pip install -r requirements.txt
语音合成效果差(机械音) 1. 参考音频时长<5秒或杂音多;
2. LLM未开启口语化优化
1. 重新录制10秒参考音频(无杂音,正常语速);
2. 在--ref_text中添加“语音:自然口语,避免机械念稿”
GPU显存不足(CUDA out of memory) 1. --gpu_list包含过多GPU(单卡显存不足);
2. 虚拟主讲人分辨率过高
1. 减少GPU数量(如--gpu_list [0]);
2. 修改Hallo2配置:hallo2/config.py中分辨率改为720P
PresentQuiz正确率低(<60%) 1. LLM未提取到核心知识点;
2. 视频讲解未覆盖题库问题
1. 检查LaTeX论文中知识点是否在标准章节(如\section{Method});
2. 在--ref_text中添加“重点讲解Forward-Forward算法步骤与实验结果”
字幕与语音不同步(误差>1秒) WhisperX模型未正确安装 1. 卸载旧版本:pip uninstall whisperx
2. 重新安装:pip install git+https://github.com/m-bain/whisperX.git
3. 运行src/utils/align_subtitle.py修复时间戳

七、相关链接

八、总结

Paper2Video是新加坡国立大学Show Lab开发的开源学术演示视频解决方案,基于MIT许可证,通过PaperTalker智能代理实现从LaTeX论文到完整演示视频的全自动化生成(覆盖幻灯片、字幕、语音、光标、虚拟主讲人),并通过Paper2Video基准提供4大专属评估指标解决学术视频“评估难”问题。该工具支持闭源与开源模型,需配置双Conda环境避免依赖冲突,最低硬件要求为NVIDIA A6000(48G显存),适用于科研人员、学生、学术会议组织者及教育机构,能高效满足会议报告、课程演示、论文推广等场景需求,有效降低学术视频制作门槛,提升知识传递效率与质量,是目前学术领域首个“生成-评估”一体化的专用工具。

打赏
THE END
作者头像
dotaai
正在和我的聊天机器人谈恋爱,它很会捧场。