InteractAvatar:面向场景物体交互的开源 AI 说话数字人生成框架
InteractAvatar是一款开源的文本驱动、场景感知、人物-物体交互可控的说话数字人(Talking Avatar)生成框架,核心解决当前数字人生成领域长期存在的控制-质量两难问题——...
InteractAvatar是一款开源的文本驱动、场景感知、人物-物体交互可控的说话数字人(Talking Avatar)生成框架,核心解决当前数字人生成领域长期存在的控制-质量两难问题——...
PaddleSpeech是基于百度飞桨(PaddlePaddle)深度学习框架打造的开源一站式语音与音频全功能处理工具包,该项目的核心定位是降低语音技术的使用与开发门槛,打通从数据处理...
2026年2月,SpaceX正式收购xAI,合并后新实体估值达1.25万亿美元。马斯克宣布构建“太空-地面一体化AI生态”,利用星链卫星与星舰火箭打造轨道数据中心,解决地面算力能源瓶...
Multimodal-Search-R1(简称MMSearch-R1)是一款开源的端到端强化学习框架,核心定位是让多模态大语言模型(LMMs)具备按需、多轮、自主的真实世界多模态搜索能力,解决传统...
SenseNova-MARS是商汤科技开源的多模态智能体推理与搜索框架,以强化学习为核心技术,赋予视觉语言模型动态视觉推理与图像裁剪、图像搜索、文本搜索多工具协同调用能力,提...
DeepSpeed-MII是由微软DeepSpeed团队打造的开源Python大模型推理部署专用库,全称为Model Implementations for Inference,是DeepSpeed生态中聚焦于模型推理阶段的核心组件...
DeepSeek-OCR 2是由deepseek-ai开源的新一代OCR(光学字符识别)模型,基于视觉因果流设计理念,核心是让AI模拟人类阅读逻辑处理图像与文档,该模型采用DeepEncoder V2架构...
OpenJudge是一款专为AI应用设计的开源评估框架,基于Python开发,核心定位是为AI智能体、聊天机器人、多模态应用、代码生成系统等各类AI应用提供标准化、自动化、全维度的质...
STEP3-VL-10B是阶跃星辰(StepFun AI)开源的轻量级多模态基础大模型,核心定位是在10B(100亿)参数的紧凑规模下,实现高效性与前沿多模态智能的极致平衡,打破“参数越大...
LightOnOCR-2-1B 是由 LightOnAI 开源的端到端多语言视觉 - 语言 OCR 模型,仅含 10 亿参数,却实现了当前业界领先的识别性能。该模型打破传统多阶段 OCR 流水线的局限,可...
