PixVerse V5.5首发混合架构:AI视频生成进入"毫秒级口型同步"时代
12月1日,拍我AI(PixVerse)正式推出V5.5版本,国内首次应用Diffusion与Transformer混合架构,将视频生成速度与质量同步提升。该版本实现了毫秒级音画对口型同步,标志着A...
12月1日,拍我AI(PixVerse)正式推出V5.5版本,国内首次应用Diffusion与Transformer混合架构,将视频生成速度与质量同步提升。该版本实现了毫秒级音画对口型同步,标志着A...
可灵AI公司今日正式宣布,其自主研发的全球首个统一多模态视频大模型O1于零时起面向公众全量开放。该模型凭借MVL(多模态视觉语言)统一交互架构与Chain-of-Thought推理链路...
InfiniteTalk是由美团视觉智能团队开源的音频驱动视频生成框架,专为稀疏帧视频配音(Sparse-Frame Video Dubbing)设计,同时支持图像到视频(Image-to-Video)和视频到视...
Step-Audio-R1是阶跃星辰(Stepfun)开源的首款成功解锁测试时计算缩放能力的音频语言模型,核心解决了传统音频模型“反向缩放”的行业痛点,即推理链延长导致性能下降的问题...
ChronoEdit是英伟达NVIDIA多伦多AI实验室(nv-tlabs)开发的开源图像编辑与世界模拟工具,核心创新在于将传统图像编辑重构为视频生成任务——以输入图像和目标编辑图像作为...
近日,网易云音乐旗下创新项目“网易天音”正式推出“AI写歌”趣味功能并开启上线测试。“AI写歌”功能具备免费使用、操作便捷两大核心优势。用户只需在网易云音乐移动端首...
DeepOCR是基于VILA代码库复现Deepseek-OCR的开源项目,核心聚焦于通过视觉-文本令牌压缩技术实现高效OCR任务。其创新的DeepEncoder架构融合SAM(窗口注意力)与CLIP(全局注...
Frappe Builder是一款基于Frappe生态打造的开源低代码可视化网站构建工具,它提供类Figma的直观编辑体验,支持响应式设计、Frappe CMS数据集成、自定义脚本与样式,搭配一键...
WithAnyone是由复旦大学与阶跃星辰联合开源的多身份AI合照生成项目,基于FLUX扩散模型架构构建,核心解决传统人像生成中的“复制粘贴”伪影问题。该项目通过大规模配对数据...
MOSS-Speech是由复旦大学邱锡鹏教授领衔的OpenMOSS团队(国内知名AI开源团队,曾推出MOSS大模型系列)研发的原生语音到语音(Speech-to-Speech, S2S)开源大模型,旨在打破...