TeleStyle:中国电信开源的零样本高保真图像视频风格迁移框架

原创 发布日期:
64

一、TeleStyle是什么

TeleStyle是由中国电信人工智能研究院(Tele-AI) 研发并开源的轻量级、高性能、内容保留式图像与视频双模态风格迁移模型,基于Qwen-Image-Edit基座与DiT架构构建,采用课程持续学习(Curriculum Continual Learning)训练策略,在不微调、不针对特定风格训练的前提下,实现对任意参考风格的零样本迁移,同时严格保持内容主体结构、透视、细节与语义完整性,并针对视频场景优化时间一致性,解决传统风格迁移易出现的内容畸变、细节丢失、风格泛化弱、视频闪烁抖动等痛点。

该项目以“高保真内容保留+强风格相似度+高效推理+视频时序稳定” 为核心目标,在风格相似度、内容一致性、美学质量三大行业核心指标上达到当前SOTA水平,同时提供Lightning-4steps极速推理版本,兼顾效果与速度,支持学术研究、商业创作、工业落地等多场景使用,采用Apache-2.0开源协议,可商用、可二次开发、可私有化部署。

从技术定位看,TeleStyle不是简单的滤镜工具,而是一套端到端可训练、可推理、可扩展的全链路风格迁移系统,同时覆盖图像单帧与视频序列,支持任意风格参考图输入,无需文本提示词辅助,直接以图生图、以图生视频,降低使用门槛,提升创作自由度。

二、功能特色

TeleStyle的核心竞争力集中在内容保真、零样本泛化、双模态支持、极速推理、时序稳定、工业级健壮性六大维度,具体功能特色如下:

1. 极致内容保留,主体零畸变

  • 精准保留人物、物体、场景的轮廓、结构、比例、透视关系,不出现变形、扭曲、缺失。

  • 保留文字、标志、纹理等精细细节,适合产品展示、人像创作、建筑可视化等对保真度要求高的场景。

  • 对复杂构图、多主体、动态场景具备强鲁棒性,不丢失关键语义信息。

2. 零样本跨风格泛化,无需微调

  • 支持任意艺术风格、摄影风格、插画风格、影视色调的迁移,包括油画、水墨、像素、赛博朋克、日系清新、胶片质感等。

  • 无需针对新风格重新训练或LoRA微调,输入一张参考图即可一键迁移,泛化能力覆盖训练集外未知风格。

  • 风格相似度高,色彩、笔触、光影、质感高度贴合参考图,不出现风格模糊、杂糅、丢失。

3. 图像+视频双模态原生支持

  • 图像端:支持JPG、PNG、WEBP等常见格式,分辨率自适应,最高支持4K输出。

  • 视频端:支持MP4、MOV、AVI等主流格式,内置时间一致性模块,逐帧关联参考风格与前序帧信息,消除闪烁、抖动、跳变,输出流畅稳定的风格化视频。

  • 统一模型架构,一套权重同时支撑图像与视频任务,降低部署与维护成本。

4. Lightning极速推理,4步出图

  • 提供标准高质量版本与Lightning-4steps轻量版本,后者仅需4步扩散推理即可完成图像风格迁移,速度提升10倍以上。

  • 推理显存占用优化,中端消费级显卡可流畅运行,支持批量处理与流水线集成。

  • 视频推理支持帧间缓存与增量计算,长视频也可稳定高效输出。

5. 训练与推理全开源,可商用可定制

  • 开源完整推理代码、模型权重、项目文档、示例脚本,支持本地部署、云端部署、容器化部署。

  • 采用Apache-2.0协议,允许商业使用、二次修改、分发、嵌入产品,无版权风险。

  • 代码结构清晰、注释完善,支持自定义损失函数、推理参数、后处理逻辑,方便科研与工程优化。

6. 工业级稳定性与兼容性

  • 兼容Python 3.10+、PyTorch 2.0+、CUDA 11.7+,适配NVIDIA全系列显卡。

  • 支持FP16/FP32混合精度,支持xFormers、FlashAttention等加速算子,提升吞吐量。

  • 对低画质、压缩图、模糊图具备一定修复能力,输出结果干净无明显噪点、伪影。

三、技术细节

TeleStyle的技术方案围绕基座选型、训练策略、架构设计、视频时序建模、推理优化五大核心环节构建,兼具学术创新性与工程实用性。

1. 基座模型:Qwen-Image-Edit

TeleStyle以阿里通义Qwen-Image-Edit为基座,该模型在内容保留、结构理解、细节生成上具备原生优势,适合需要高精度内容保真的编辑类任务。项目在基座基础上进行风格感知微调与时序扩展,保留基座的内容理解能力,同时注入强风格迁移与视频建模能力。

2. 核心架构:DiT(Diffusion Transformer)

采用当前主流的DiT架构,以Transformer替代传统U-Net作为扩散模型主干,优势在于:

  • 长距离特征建模能力更强,对全局构图、大尺度风格特征捕捉更精准。

  • 注意力机制天然适配多模态条件输入(内容图+风格图),便于风格特征对齐与内容特征保护。

  • 便于扩展到视频时空序列,支持时间维度注意力与帧间关联建模。

3. 训练策略:课程持续学习(Curriculum Continual Learning)

为解决风格泛化与内容保真的平衡高质量数据与噪声数据的兼容问题,TeleStyle采用课程持续学习框架:

  1. 数据课程:从高质量精选三元组(内容图-风格图-目标图)开始,逐步加入合成噪声数据,提升模型鲁棒性。

  2. 难度课程:从简单风格、对称构图、单一主体逐步过渡到复杂风格、杂乱构图、多主体动态场景。

  3. 损失课程:前期以内容损失为主保证结构不变,后期提升风格损失权重强化风格表达,同时加入感知损失、时序损失(视频)、平滑损失约束输出质量。

该策略使模型在混合数据集上稳定收敛,既不丢失基座的内容保真能力,又获得对未知风格的强泛化能力。

4. 视频风格迁移核心:时间一致性模块

视频任务的最大挑战是帧间闪烁与风格不一致,TeleStyle通过三项技术解决:

  • 时序注意力:在DiT中加入时间维度注意力,每一帧生成时同时参考内容帧、风格参考图、前序多帧隐状态,保持风格与内容时序连贯。

  • 光流引导特征对齐:利用轻量光流模型估计帧间运动,对特征图进行对齐,减少因运动导致的风格突变。

  • 滑动窗口平滑:对连续帧的风格特征与噪声向量进行滑动平均滤波,抑制高频抖动与伪影。

5. 损失函数设计(多目标联合优化)

TeleStyle使用复合损失函数,在内容、风格、感知、时序、平滑性上全面约束:

  • 内容损失:保证生成结果与原图在高层语义特征上一致,使用预训练视觉模型(如CLIP、VGG)高层特征计算L2距离。

  • 风格损失:计算风格图与生成图的Gram矩阵差异,匹配色彩分布、纹理频率、笔触模式。

  • 感知损失:使用CLIP视觉特征对齐,提升美学质量与语义合理性。

  • 时序损失(视频):帧间特征一致性损失+光流约束损失,保证时间平滑。

  • 平滑损失:抑制噪点与锯齿,提升视觉舒适度。

6. 推理加速:Lightning-4steps蒸馏优化

标准扩散模型通常需要20-50步推理,TeleStyle通过渐进式对抗蒸馏(Progressive Adversarial Distillation) 将推理步数压缩至4步,同时保持视觉质量几乎无下降:

  • 教师模型:高质量多步TeleStyle模型。

  • 学生模型:轻量4步模型,通过对抗学习模仿教师输出分布。

  • 蒸馏目标:兼顾内容、风格、感知三维度,避免快速推理带来的细节模糊与风格弱化。

7. 模型规格与资源占用(核心参数表)

模型版本 推理步数 显存建议 单张1024×1024推理速度 适用场景
标准高质量版 20-28步 ≥16GB VRAM 2-5秒/帧 影视、商业海报、高精度创作
Lightning极速版 4步 ≥8GB VRAM 0.2-0.5秒/帧 短视频、批量生成、实时预览
视频专用版 8-12步 ≥24GB VRAM 0.5-1秒/帧 短视频、广告、动画、Vlog

四、应用场景

TeleStyle凭借高保真、零样本、视频稳定、极速推理、开源可商用的特性,覆盖个人创作、商业设计、影视制作、教育培训、工业可视化等全场景,典型应用如下:

1. 数字内容创作

  • 个人创作者:将自拍、风景照转为油画、水墨、像素、二次元等风格,快速生成社交平台配图、头像、壁纸。

  • 自媒体/博主:批量将实拍视频转为统一艺术风格,提升账号视觉辨识度,降低剪辑成本。

  • 插画师/设计师:快速风格迭代,以参考图快速生成多风格版本,辅助创意决策。

2. 影视与视频后期

  • 短视频广告:一键将产品视频转为品牌调性风格(如高级灰、复古胶片、国风水墨)。

  • 影视预演:低成本将实拍素材转为动画风格、漫画风格、电影色调,用于分镜预览与创意验证。

  • 动漫/二创:将真人视频转为动漫风格,或对现有动漫进行风格重绘,提升二创效率。

3. 电商与品牌营销

  • 产品展示:将商品实拍图统一转为品牌视觉风格,保持产品结构不变,提升店铺整体质感。

  • 营销物料:批量生成海报、Banner、短视频封面,风格统一、效率高、成本低。

  • 虚拟形象/直播:对虚拟人视频进行实时风格迁移,打造差异化视觉效果。

4. 建筑与工业可视化

  • 建筑效果图:将建筑草图、实拍工地、渲染图转为艺术插画、水彩、赛博朋克等风格,用于方案汇报与宣传。

  • 工业设计:保留产品结构与细节,快速尝试不同表面质感与色彩风格,辅助设计评审。

5. 教育培训与艺术科普

  • 艺术教学:将经典画作风格迁移到现实照片,直观展示不同艺术流派的视觉特征。

  • 历史/文化科普:将历史场景、文物图片转为对应时代艺术风格,增强内容感染力。

  • 通识教育:将课本插图、实拍素材转为卡通/插画风格,提升学生兴趣。

6. 游戏与元宇宙内容生产

  • 游戏素材:将实景、概念图转为游戏内美术风格(如像素、低多边形、二次元、写实)。

  • 虚拟场景:对3D渲染视频、实时画面进行风格化处理,快速生成多样化场景皮肤。

7. 学术研究与二次开发

  • 计算机视觉科研:基于TeleStyle研究风格迁移、内容保护、视频时序建模、扩散模型蒸馏等方向。

  • 垂直领域定制:针对医疗影像、遥感图像、文本图像等特殊场景进行微调与适配。

  • SDK/插件开发:将TeleStyle封装为Photoshop插件、PR插件、网页API、移动端SDK,面向C端用户提供服务。

TeleStyle:中国电信开源的零样本高保真图像视频风格迁移框架

五、使用方法

TeleStyle提供完整推理脚本,支持命令行直接运行,环境配置简单、步骤清晰,以下为完整使用流程。

1. 环境准备

(1)硬件要求

  • 最低:NVIDIA显卡≥8GB显存(如RTX 3060/4060),支持CUDA。

  • 推荐:≥16GB显存(RTX 3090/4090/A10等),视频任务建议≥24GB。

  • 内存:≥32GB系统内存,存储:≥20GB可用空间(模型+依赖+素材)。

(2)软件环境

  • Python 3.10–3.11

  • PyTorch 2.0.0+(建议2.1.0+)

  • CUDA 11.7–12.2

  • 依赖库:diffusers、transformers、accelerate、xformers、opencv-python、pillow、imageio-ffmpeg等

(3)克隆仓库与安装依赖

git clone https://github.com/Tele-AI/TeleStyle.git
cd TeleStyle
pip install -r requirements.txt

2. 模型权重下载

从Hugging Face仓库下载官方权重,新建weights目录存放:

mkdir weights
# 下载地址:https://huggingface.co/Tele-AI/TeleStyle

需下载文件:

  • 图像主模型:*.safetensors

  • Lightning-4steps轻量模型:*.safetensors

  • 视频专用模型:dit.ckpt、prompt_embeds.pth

3. 图像风格迁移推理

运行图像推理脚本,指定内容图、风格图、输出路径:

python telestyleimage_inference.py \
 --content_path ./assets/content.jpg \
 --style_path ./assets/style.jpg \
 --output_path ./output/result.png \
 --lightning True # 使用4步极速版,False为标准高质量版

关键参数说明:

  • --content_path:内容图像路径(支持JPG/PNG)。

  • --style_path:风格参考图像路径。

  • --output_path:结果保存路径。

  • --lightning:是否启用极速推理(4步)。

  • --resolution:输出分辨率(默认1024,可设512/768/1024/1280)。

  • --seed:随机种子,保证结果可复现。

4. 视频风格迁移推理

运行视频推理脚本,支持逐帧处理与时间一致性优化:

python telestylevideo_inference.py \
 --video_path ./assets/input.mp4 \
 --image_path ./assets/style.jpg \
 --output_path ./output/stylized_video.mp4 \
 --fps 24 \
 --resolution 720

关键参数说明:

  • --video_path:输入视频路径。

  • --image_path:风格参考图路径。

  • --output_path:输出视频路径。

  • --fps:输出帧率(建议与原视频一致)。

  • --resolution:输出短边分辨率(480/720/1080)。

  • --temporal_consistency:是否开启强时序一致性(默认开启)。

5. 批量处理与脚本集成

可编写循环脚本批量处理文件夹内图像/视频,示例:

# 批量图像风格迁移
for content in ./contents/*.jpg; do
 python telestyleimage_inference.py \
  --content_path "$content" \
  --style_path ./style_ref.jpg \
  --output_path "./output/$(basename "$content")"
done

6. 部署建议

  • 本地测试:直接命令行运行,适合个人创作与调试。

  • 服务化部署:封装为FastAPI/Flask接口,支持HTTP调用,用于云端服务。

  • 容器化:使用Docker打包环境,一键部署,避免依赖冲突。

  • 集群部署:搭配加速卡与任务队列,支持高并发批量生成。

六、常见问题解答

1. 安装依赖时报错,提示版本冲突或安装失败

出现此类问题通常是因为现有环境与项目依赖版本不兼容,建议先创建独立虚拟环境,再执行安装。可以使用conda创建干净环境,指定Python版本为3.11,激活环境后再运行pip install -r requirements.txt。如果仍然出现xformers安装失败,可跳过xformers手动安装适配当前CUDA版本的xformers,或在代码中关闭xformers加速,以兼容性优先。部分系统需要升级pip、setuptools后再安装依赖,避免因包管理工具过旧导致失败。

2. 运行时提示CUDA out of memory显存不足

显存不足是最常见问题,可通过多种方式缓解。首先降低输出分辨率,例如将1024改为768或512,分辨率对显存占用影响显著。其次启用Lightning-4steps极速版本,比标准版本显存占用更低。还可以开启混合精度训练与推理,使用FP16精度,减少显存占用。对于视频任务,可降低帧率、分块处理、关闭部分时序增强模块。如果硬件允许,也可以使用CPU内存交换(swap),但会降低推理速度。低端显卡建议优先处理小分辨率图像,避免直接运行高分辨率视频。

3. 生成结果风格不明显,与参考图差异大

风格效果偏弱通常由参数或输入图问题导致。首先检查风格参考图是否特征清晰,避免使用模糊、低对比度、风格不突出的图片作为参考。其次可在推理时适当提高风格权重(如代码中调整style_weight参数),增强风格表达。同时确保使用完整模型权重,而非不完整的中间权重。标准版本比Lightning版本风格保留更完整,对风格要求高时建议关闭lightning参数,使用20步以上推理。另外,内容图过于复杂、细节过多也可能弱化风格表现,可尝试简化构图或提升风格图占比。

4. 视频生成出现闪烁、抖动、帧间风格不一致

视频闪烁主要是时序一致性未充分发挥作用。首先确认开启temporal_consistency参数,默认应为开启状态。其次避免使用过低帧率,建议保持24fps或30fps,帧率过低易出现跳变。可增加时序平滑窗口长度,让模型参考更多前序帧,提升连贯性。另外,风格参考图应保持稳定,不要逐帧更换风格,同一视频应使用单张风格图或风格高度一致的图集。如果视频包含快速运动、剧烈切换镜头,闪烁概率会升高,可适当降低分辨率或使用更强的光流对齐模块。

5. 内容出现变形、细节丢失、主体畸变

内容保真下降通常与推理步数、模型权重、输入质量有关。优先使用标准版本而非极速Lightning版本,极速版本为速度牺牲少量细节与结构稳定性。检查输入内容图是否过度压缩、模糊、有大面积黑边或水印,这些干扰会影响模型对内容结构的判断。推理时不要随意修改内容损失权重,避免过度压制内容特征。确保使用官方发布的完整权重,不要使用未训练收敛的中间权重。对于文字、细小纹理等敏感内容,建议使用更高分辨率输入,提升细节保留能力。

6. 推理速度慢,等待时间长

速度慢主要受硬件、分辨率、推理步数、加速配置影响。最直接的优化是启用Lightning-4steps,速度可提升数倍。降低输出分辨率,例如从1080p改为720p或480p,速度提升明显。安装并启用xformers、FlashAttention等加速库,大幅提升Transformer推理效率。使用最新版PyTorch与CUDA,官方优化会持续提升速度。避免在集成显卡、CPU上运行,必须使用NVIDIA独立显卡,并正确安装CUDA与cuDNN。批量处理时可适当调整batch size,但需在显存允许范围内,避免因OOM导致中断。

7. 支持哪些图像与视频格式,是否有特殊限制

图像支持主流格式,包括JPG、PNG、WEBP、BMP,建议使用无损格式PNG以保留细节。视频支持MP4、MOV、AVI、MKV,推荐使用H.264编码的MP4,兼容性最好、解码最快。不支持损坏文件、加密文件、异常编码的视频。输入视频分辨率建议不超过4K,否则显存与速度压力大。图像建议长边不超过2048,避免超出模型处理范围。输出格式与输入格式保持一致,也可在代码中手动指定输出编码与后缀。

8. 是否支持Windows/Linux/macOS,是否支持CPU推理

TeleStyle主要支持Linux与Windows 10/11系统,这两个平台对CUDA与PyTorch支持最完善。macOS仅支持无CUDA的CPU推理,速度极慢,仅适合代码调试,不适合实际生成。CPU推理可以运行,但速度比GPU慢几十倍,图像可能需要数十秒,视频基本无法实用,因此强烈建议使用NVIDIA GPU。项目在Windows上需正确配置CUDA环境变量,部分依赖需要编译工具,建议安装Visual C++运行库。

9. 模型权重下载缓慢或无法访问

官方权重托管在Hugging Face,国内网络可能访问缓慢或不稳定。可使用国内镜像站点、代理、Hugging Face工具huggingface-cli download加速下载,或从第三方可信镜像获取。下载时确保文件完整,检查文件大小与官方说明一致,避免因网络中断导致文件损坏,损坏文件会导致加载失败、推理崩溃。下载完成后核对文件名与目录结构,必须放在指定weights目录下,代码默认路径才能正确加载。

10. 商业使用是否合规,是否需要标注来源

TeleStyle采用Apache-2.0开源协议,允许商业使用、二次开发、修改、分发、嵌入产品,无需支付费用,可用于商用项目、付费工具、企业内部系统等。协议要求在产品、文档、源码中保留原版权声明与LICENSE文件,注明来源为Tele-AI/TeleStyle即可。不允许将项目名称、版权声明去除后冒充自研,也不允许将项目用于违法、违规、暴力、色情等不良场景。使用前建议阅读完整LICENSE文件,确保符合合规要求。

七、相关链接

八、总结

TeleStyle是中国电信人工智能研究院面向图像与视频风格迁移场景推出的开源SOTA解决方案,以Qwen-Image-Edit为基座、DiT为核心架构、课程持续学习为训练策略,实现了零样本泛化、高保真内容保留、视频时间一致性与极速推理的平衡,在风格相似度、内容保真度、美学质量三大核心指标上达到行业领先水平,同时提供轻量化推理版本与全开源代码、权重,支持学术研究与商业落地双场景,兼容多平台、多格式、多硬件配置,解决了传统风格迁移内容畸变、泛化差、视频闪烁、推理慢等长期痛点,为数字创作、影视后期、电商营销、教育培训、工业可视化等领域提供了简单高效、稳定可靠、可定制可扩展的AI风格化能力,是当前计算机视觉风格迁移方向中兼具技术先进性与工程实用性的代表性开源项目。

打赏
THE END
作者头像
AI铺子
关注ai行业发展,专注ai工具推荐