StepAudio 2.5 TTS:阶跃星辰推出的高精度文本转语音模型
StepAudio 2.5 TTS是阶跃星辰推出的新一代AI文本转语音模型,以全局语境控制、文中语境精细调节、零样本音色复刻为核心能力,支持自然语言描述式情感与风格调控,延迟低、音...
StepAudio 2.5 TTS是阶跃星辰推出的新一代AI文本转语音模型,以全局语境控制、文中语境精细调节、零样本音色复刻为核心能力,支持自然语言描述式情感与风格调控,延迟低、音...
MaxHermes是MiniMax公司推出的全球首个基于云端沙箱的自我进化AI助手,依托Hermes Agent框架与自研M2.7大模型打造,核心具备自主技能生成迭代、跨会话持久记忆、多子代理并...
SearchClaw是中国人民大学信息检索实验室(RUC-NLPIR)研发的开源自托管AI深度研究智能体,通过自主多轮检索、网页解析、内容整合与质量校验,生成带权威引用的结构化研究报...
ERNIE-Image是百度文心大模型团队推出的开源AI文生图模型,采用8B参数单流DiT架构,内置3B参数提示词增强器(Prompt Enhancer)。核心优势为精准多语言文字渲染、超强指令遵...
OmniShow是由字节跳动、香港中文大学、莫纳什大学、香港大学联合研发并开源的端到端多模态人-物交互视频生成(HOIVG)统一模型。它是业界首个完整支持RAP2V的单架构模型,以...
Spark 2.0是由World Labs基于THREE.js开源的高级3D高斯溅射(3DGS)渲染库,专为Web端打造。它通过创新的LoD流式加载、GPU加速排序与全格式兼容,实现亿级高斯点在手机、PC...
MAI-Image-2-Efficient 是微软于2026年4月正式发布的轻量化、高效率AI文生图模型,属于微软MAI-Image系列的第二代高效版本,定位为旗舰模型MAI-Image-2的低成本、高吞吐替代...
Relax是小红书AI Infra团队开源的高性能多模态大模型强化学习后训练框架,基于Ray Serve、Megatron-LM与SGLang构建,提供全模态支持、服务化容错、全异步流水线三大核心能力...
HY-World 2.0是腾讯混元于2026年4月开源的多模态3D世界模型,支持文本、图像、视频输入,一键生成可漫游、可编辑、可导入主流游戏引擎的3D世界资产(Mesh/3DGS/点云),兼具...
AgentGPT是由Reworkd AI团队开发的开源浏览器端自主AI智能体平台,基于Next.js、FastAPI、LangChain与OpenAI大模型构建,无需本地安装环境,打开网页即可创建、配置并运行自...