AI新闻资讯 - 最新人工智能技术动态与热点资讯

Chatterbox：开源的高性能TTS模型，支持23种语言零样本克隆与情感语音合成

Chatterbox是由Resemble AI团队打造的一款开源生产级文本转语音（TTS）模型家族，并非单一模型，而是三款针对性优化的先进TTS模型组合，整体以轻量化架构实现了媲美商业闭源...

2个月前 AI工具箱

91

PaCoRe：阶跃星辰推出的开源AI推理框架，8B小模型性能超越GPT-5

PaCoRe 全称Parallel Coordinated Reasoning，中文译为并行协同推理，是由阶跃星辰（stepfun-ai）团队开源的一款全新AI推理框架，核心定位是解决传统大模型推理时的两大核心...

2个月前人工智能研究所

92

Qwen-Image-Layered：阿里通义千问开源的AI图像分层编辑模型

Qwen-Image-Layered是阿里巴巴通义千问团队（QwenLM）开源的一款专注于图像分层与精准编辑的AI模型，是当前业内首个实现“原生图层解耦”的开源扩散模型，核心定位是让AI具...

2个月前 AI铺子

108

NitroGen：英伟达联合多所高校开源的通用游戏AI基础模型

NitroGen是由英伟达联合多所高校开源的通用游戏AI基础模型，核心定位是打造“通杀多类型游戏”的AI智能体，无需针对单款游戏定制训练，仅通过像素级游戏画面输入，就能精准...

2个月前 97ai

96

Fun-Audio-Chat：阿里通义开源的低延迟大音频语言模型

Fun-Audio-Chat是由阿里通义实验室开源的一款面向自然、低延迟语音交互场景设计的大型音频语言模型（Large Audio Language Model）。该模型创新性引入双分辨率语音表示架构...

2个月前 dotaai

75

A2UI：谷歌开源的一款专注于代理生成用户界面的声明式框架

A2UI的全称是Agent-to-User Interface，是由谷歌开源的一款面向生成式AI代理的声明式用户界面框架，它并非一个传统意义上的UI组件库，而是一套“UI意图描述标准+多框架渲染...

2个月前 AI工具集

75

Molmo2：AllenAI开源的先进多模态语言模型，支持单图/多图/视频输入与深度语义理解

Molmo2是由艾伦人工智能研究所（AllenAI）研发并开源的一款先进多模态开放语言模型，旨在打破文本与视觉模态之间的壁垒，实现对图像、视频与文本信息的联合理解与处理。Mo...

2个月前 AI工具箱

84

MiMo-V2-Flash：小米开源的千亿级混合专家语言模型，高速推理与长上下文处理兼备

MiMo-V2-Flash 是小米公司开源的千亿级混合专家（MoE）架构语言模型，总参数规模达3090亿，活跃参数仅150亿，实现了高性能与低推理成本的平衡。该模型创新采用混合注意力架...

2个月前人工智能研究所

76

LongCat-Video-Avatar：美团开源的多任务音频驱动动画生成模型

LongCat-Video-Avatar 是美团开源的统一音频驱动角色动画模型，支持音频 - 文本到视频、音频 - 文本 - 图像到视频及视频续播三大核心任务，兼容单流与多流音频输入。该模型...