InfiniteTalk:开源音频驱动的稀疏帧视频配音框架,支持无限长度多模态视频生成
InfiniteTalk是由美团视觉智能团队开源的音频驱动视频生成框架,专为稀疏帧视频配音(Sparse-Frame Video Dubbing)设计,同时支持图像到视频(Image-to-Video)和视频到视...
InfiniteTalk是由美团视觉智能团队开源的音频驱动视频生成框架,专为稀疏帧视频配音(Sparse-Frame Video Dubbing)设计,同时支持图像到视频(Image-to-Video)和视频到视...
Step-Audio-R1是阶跃星辰(Stepfun)开源的首款成功解锁测试时计算缩放能力的音频语言模型,核心解决了传统音频模型“反向缩放”的行业痛点,即推理链延长导致性能下降的问题...
ChronoEdit是英伟达NVIDIA多伦多AI实验室(nv-tlabs)开发的开源图像编辑与世界模拟工具,核心创新在于将传统图像编辑重构为视频生成任务——以输入图像和目标编辑图像作为...
近日,网易云音乐旗下创新项目“网易天音”正式推出“AI写歌”趣味功能并开启上线测试。“AI写歌”功能具备免费使用、操作便捷两大核心优势。用户只需在网易云音乐移动端首...
DeepOCR是基于VILA代码库复现Deepseek-OCR的开源项目,核心聚焦于通过视觉-文本令牌压缩技术实现高效OCR任务。其创新的DeepEncoder架构融合SAM(窗口注意力)与CLIP(全局注...
Frappe Builder是一款基于Frappe生态打造的开源低代码可视化网站构建工具,它提供类Figma的直观编辑体验,支持响应式设计、Frappe CMS数据集成、自定义脚本与样式,搭配一键...
WithAnyone是由复旦大学与阶跃星辰联合开源的多身份AI合照生成项目,基于FLUX扩散模型架构构建,核心解决传统人像生成中的“复制粘贴”伪影问题。该项目通过大规模配对数据...
MOSS-Speech是由复旦大学邱锡鹏教授领衔的OpenMOSS团队(国内知名AI开源团队,曾推出MOSS大模型系列)研发的原生语音到语音(Speech-to-Speech, S2S)开源大模型,旨在打破...
AgentEvolver是阿里通义实验室开源的AI智能体自进化系统,通过自我提问、自我导航、自我归因三大核心机制,解决传统强化学习(RL)任务稀缺、探索低效、样本利用率低的痛点...
Parallax是一款开源的分布式模型服务框架,由AI技术公司Gradient开发并开源。其核心定位是“让用户在任何地方构建自己的AI集群”,解决传统LLM推理依赖高配置单节点或中心化...