YingVideo-MV:巨人网络开源的音乐驱动多阶段视频生成框架
YingVideo-MV是由巨人网络开源的一款音乐驱动多阶段视频生成框架,它能够自动解析输入音频的语义特征,然后通过内置的镜头规划模块设计符合音乐氛围的画面分镜,再利用扩散...
YingVideo-MV是由巨人网络开源的一款音乐驱动多阶段视频生成框架,它能够自动解析输入音频的语义特征,然后通过内置的镜头规划模块设计符合音乐氛围的画面分镜,再利用扩散...
在人工智能大模型训练领域,"Token"是理解模型处理文本机制的核心概念。作为模型可理解的最小语义单元,Token的划分方式直接影响模型的计算效率、多语言处理能力及成本结构...
UnityVideo 是由香港科技大学、香港中文大学、清华大学与快手可灵联合研发的多模态多任务统一视频理解与生成框架。该框架基于统一 Transformer 骨干网络与联合训练策略,突...
LLaDA2.0 是蚂蚁集团推出的一系列离散扩散大型语言模型(dLLMs),涵盖 16B 参数的基础版本与 100B 参数的混合专家(MoE)版本,是目前参数规模最大的扩散语言模型之一。该...
SCAIL是智谱AI开源的一款面向生产级应用的角色动画生成框架,核心基于3D一致姿态表示的上下文学习技术,解决了传统角色动画生成中泛化能力弱、复杂场景运动不连贯的痛点。该...
欠拟合(Underfitting)和过拟合(Overfitting)这两种问题会严重影响模型的性能和泛化能力,理解它们的区别以及如何应对是掌握机器学习的关键一步。本文AI铺子将深入探讨欠...
AI Toolkit是由Ostris团队开源的全能型扩散模型训练套件,其核心定位是为消费级硬件用户提供低成本、高易用性的图像与视频扩散模型训练解决方案。不同于专业级AI训练工具对...
STARFlow-V 是苹果团队研发的首款基于归一化流的因果视频生成模型,打破了视频生成领域扩散模型的技术垄断。该模型采用全局 - 局部架构实现时空特征解耦,结合流分数匹配去...
BAGEL是字节跳动Seed团队开源的一款All-in-One多模态统一基础模型,具备7B活跃参数(总参数14B),采用创新的混合Transformer专家(MoT)架构,基于大规模交错式文本、图像...
PartCrafter是由北京大学、字节跳动与卡内基梅隆大学联合开源的结构化 3D 网格生成模型,该模型创新性地采用组合式潜在空间与局部 - 全局联合去噪 Transformer 架构,可直接...
