AI新闻资讯 - 最新人工智能技术动态与热点资讯

PixVerse V5.5首发混合架构：AI视频生成进入"毫秒级口型同步"时代

12月1日，拍我AI（PixVerse）正式推出V5.5版本，国内首次应用Diffusion与Transformer混合架构，将视频生成速度与质量同步提升。该版本实现了毫秒级音画对口型同步，标志着A...

3个月前 AI工具集

61

可灵AI O1全量上线：统一多模态架构开启视频创作“一句话时代”

可灵AI公司今日正式宣布，其自主研发的全球首个统一多模态视频大模型O1于零时起面向公众全量开放。该模型凭借MVL（多模态视觉语言）统一交互架构与Chain-of-Thought推理链路...

3个月前 AI工具箱

97

InfiniteTalk：开源音频驱动的稀疏帧视频配音框架，支持无限长度多模态视频生成

InfiniteTalk是由美团视觉智能团队开源的音频驱动视频生成框架，专为稀疏帧视频配音（Sparse-Frame Video Dubbing）设计，同时支持图像到视频（Image-to-Video）和视频到视...

3个月前 dotaai

98

Step-Audio-R1：阶跃星辰开源的首款支持计算缩放的音频智能推理模型

Step-Audio-R1是阶跃星辰(Stepfun)开源的首款成功解锁测试时计算缩放能力的音频语言模型，核心解决了传统音频模型“反向缩放”的行业痛点，即推理链延长导致性能下降的问题...

3个月前 AI工具集

86

ChronoEdit：英伟达开源的时间一致型AI图像编辑与视频生成工具

ChronoEdit是英伟达NVIDIA多伦多AI实验室（nv-tlabs）开发的开源图像编辑与世界模拟工具，核心创新在于将传统图像编辑重构为视频生成任务——以输入图像和目标编辑图像作为...

3个月前 AI工具箱

73

网易云音乐“AI写歌”功能开启测试：一键将灵感转化为完整歌曲

近日，网易云音乐旗下创新项目“网易天音”正式推出“AI写歌”趣味功能并开启上线测试。“AI写歌”功能具备免费使用、操作便捷两大核心优势。用户只需在网易云音乐移动端首...

3个月前 AI工具箱

84

DeepOCR：开源Deepseek-OCR复现项目，以令牌压缩实现高效多场景OCR

DeepOCR是基于VILA代码库复现Deepseek-OCR的开源项目，核心聚焦于通过视觉-文本令牌压缩技术实现高效OCR任务。其创新的DeepEncoder架构融合SAM（窗口注意力）与CLIP（全局注...

3个月前人工智能研究所

195

Frappe Builder：Frappe推出的开源可视化低代码网站快速构建工具

Frappe Builder是一款基于Frappe生态打造的开源低代码可视化网站构建工具，它提供类Figma的直观编辑体验，支持响应式设计、Frappe CMS数据集成、自定义脚本与样式，搭配一键...

3个月前 AI铺子

80

WithAnyone：复旦 & 阶跃星辰联合开源的 AI 合照生成模型，一键实现自然多身份同框

WithAnyone是由复旦大学与阶跃星辰联合开源的多身份AI合照生成项目，基于FLUX扩散模型架构构建，核心解决传统人像生成中的“复制粘贴”伪影问题。该项目通过大规模配对数据...

3个月前 AI工具箱

92

MOSS-Speech：复旦大学开源的端到端语音大模型，无文本引导实现自然语音交互

MOSS-Speech是由复旦大学邱锡鹏教授领衔的OpenMOSS团队（国内知名AI开源团队，曾推出MOSS大模型系列）研发的原生语音到语音（Speech-to-Speech, S2S）开源大模型，旨在打破...

3个月前人工智能研究所

157

AI新闻

热门人工智能技术动态与AI行业资讯

PixVerse V5.5首发混合架构：AI视频生成进入"毫秒级口型同步"时代

可灵AI O1全量上线：统一多模态架构开启视频创作“一句话时代”

InfiniteTalk：开源音频驱动的稀疏帧视频配音框架，支持无限长度多模态视频生成

Step-Audio-R1：阶跃星辰开源的首款支持计算缩放的音频智能推理模型

ChronoEdit：英伟达开源的时间一致型AI图像编辑与视频生成工具

网易云音乐“AI写歌”功能开启测试：一键将灵感转化为完整歌曲

DeepOCR：开源Deepseek-OCR复现项目，以令牌压缩实现高效多场景OCR

Frappe Builder：Frappe推出的开源可视化低代码网站快速构建工具

WithAnyone：复旦 & 阶跃星辰联合开源的 AI 合照生成模型，一键实现自然多身份同框

MOSS-Speech：复旦大学开源的端到端语音大模型，无文本引导实现自然语音交互