人工智能研究所的个人主页

Open Coding Agents：AllenAI推出的开源多参数量SERA系列编码智能体项目

Open Coding Agents是由艾伦人工智能研究所（AllenAI）推出的开源AI编码智能体项目，是一套集开源编码模型、创新训练方法于一体的完整AI编程解决方案，旨在解决传统编码智能...

3个月前人工智能研究所

125

Anima：CircleStone Labs 与 Comfy Org 联合开源的20 亿参数动漫风格 AI 绘画模型

Anima是一款面向动漫与非写实艺术创作的20亿参数开源文本到图像（Text-to-Image）模型，由CircleStone Labs与Comfy Org联合研发，基于NVIDIA Cosmos架构构建，托管于Huggin...

4个月前人工智能研究所

880

InteractAvatar：面向场景物体交互的开源 AI 说话数字人生成框架

InteractAvatar是一款开源的文本驱动、场景感知、人物-物体交互可控的说话数字人（Talking Avatar）生成框架，核心解决当前数字人生成领域长期存在的控制-质量两难问题——...

4个月前人工智能研究所

209

PaddleSpeech：百度飞桨开源的全栈语音 AI 工具包，覆盖识别合成翻译克隆全场景

PaddleSpeech是基于百度飞桨（PaddlePaddle）深度学习框架打造的开源一站式语音与音频全功能处理工具包，该项目的核心定位是降低语音技术的使用与开发门槛，打通从数据处理...

4个月前人工智能研究所

160

SpaceX收购xAI估值1.25万亿美元，马斯克打造太空AI超级闭环

2026年2月，SpaceX正式收购xAI，合并后新实体估值达1.25万亿美元。马斯克宣布构建“太空-地面一体化AI生态”，利用星链卫星与星舰火箭打造轨道数据中心，解决地面算力能源瓶...

4个月前人工智能研究所

107

Multimodal-Search-R1：字节跳动开源的端到端多模态搜索强化学习框架

Multimodal-Search-R1（简称MMSearch-R1）是一款开源的端到端强化学习框架，核心定位是让多模态大语言模型（LMMs）具备按需、多轮、自主的真实世界多模态搜索能力，解决传统...

4个月前人工智能研究所

166

SenseNova-MARS：商汤科技开源的多模态智能体框架，实现动态视觉推理与多工具协同搜索

SenseNova-MARS是商汤科技开源的多模态智能体推理与搜索框架，以强化学习为核心技术，赋予视觉语言模型动态视觉推理与图像裁剪、图像搜索、文本搜索多工具协同调用能力，提...

4个月前人工智能研究所

168

DeepSpeed-MII：DeepSpeed 团队推出的大模型推理高性能优化与部署工具

DeepSpeed-MII是由微软DeepSpeed团队打造的开源Python大模型推理部署专用库，全称为Model Implementations for Inference，是DeepSpeed生态中聚焦于模型推理阶段的核心组件...

4个月前人工智能研究所

138

DeepSeek-OCR 2：DeepSeek-AI推出的开源类人逻辑OCR识别工具，适配图片与PDF全场景

DeepSeek-OCR 2是由deepseek-ai开源的新一代OCR（光学字符识别）模型，基于视觉因果流设计理念，核心是让AI模拟人类阅读逻辑处理图像与文档，该模型采用DeepEncoder V2架构...

4个月前人工智能研究所

304

OpenJudge：开源AI应用评估与优化框架

OpenJudge是一款专为AI应用设计的开源评估框架，基于Python开发，核心定位是为AI智能体、聊天机器人、多模态应用、代码生成系统等各类AI应用提供标准化、自动化、全维度的质...

4个月前人工智能研究所

177

人工智能研究所

文章

工具

软件

图书

Open Coding Agents：AllenAI推出的开源多参数量SERA系列编码智能体项目

Anima：CircleStone Labs 与 Comfy Org 联合开源的20 亿参数动漫风格 AI 绘画模型

InteractAvatar：面向场景物体交互的开源 AI 说话数字人生成框架

PaddleSpeech：百度飞桨开源的全栈语音 AI 工具包，覆盖识别合成翻译克隆全场景

SpaceX收购xAI估值1.25万亿美元，马斯克打造太空AI超级闭环

Multimodal-Search-R1：字节跳动开源的端到端多模态搜索强化学习框架

SenseNova-MARS：商汤科技开源的多模态智能体框架，实现动态视觉推理与多工具协同搜索

DeepSpeed-MII：DeepSpeed 团队推出的大模型推理高性能优化与部署工具

DeepSeek-OCR 2：DeepSeek-AI推出的开源类人逻辑OCR识别工具，适配图片与PDF全场景

OpenJudge：开源AI应用评估与优化框架