开源项目

BitDance：字节跳动开源的二进制令牌自回归超快高分辨率AI图像生成模型

BitDance是由字节跳动等机构联合推出的开源自回归生成模型项目，核心解决传统离散自回归模型在视觉生成中令牌器重建质量低、词汇表过大采样困难、逐令牌生成速度慢等痛点，...

3个月前 AI新闻

181

Maestro：开源 AI 代理编排指挥中心，多任务并行与无人值守自动化工具

Maestro 是一款由 pedramamini 主导开发的开源跨平台桌面应用，定位为AI 代理编排指挥中心，专为高频使用 AI 进行编码、多项目并行处理的开发者与极客用户设计。它以键盘优...

3个月前 AI新闻

189

OpenStoryline：小红书开源的 AI 对话式视频创作智能体，零门槛全流程自动生成视频

OpenStoryline是小红书开源的AI智能体驱动对话式视频创作系统，核心是用自然语言对话完成从素材到成片的全流程视频生成，无需专业剪辑技能，即可自动生成脚本、分镜、剪辑、...

3个月前 AI新闻

403

Clawra：SumeLabs 推出的 OpenClaw 智能体专属 AI 自拍生成扩展

Clawra是SumeLabs发布的一款专为OpenClaw个人AI智能体设计的开源自拍/图片生成技能扩展，以Skill插件形态存在，不独立运行，核心价值是为OpenClaw智能体赋予“可视化形象交...

3个月前 AI新闻

197

NanoBot：港大开源的轻量级个人AI智能体框架，极简架构复刻核心Agent能力

NanoBot是由香港大学数据科学实验室（HKUDS）开源的超轻量级个人AI智能体框架，以“极简主义”为核心设计理念，仅用约4000行Python代码实现了OpenClaw（Clawdbot）的核心Ag...

4个月前 AI新闻

562

PaperBanana：北大联合谷歌开源的学术插图自动生成框架

PaperBanana是由北京大学与谷歌云AI研究院联合研发的开源智能体框架，核心定位是为AI科学家及科研工作者提供出版级学术插图的全自动化生成服务，解决科研过程中方法流程图、...

4个月前 AI新闻

165

InteractAvatar：面向场景物体交互的开源 AI 说话数字人生成框架

InteractAvatar是一款开源的文本驱动、场景感知、人物-物体交互可控的说话数字人（Talking Avatar）生成框架，核心解决当前数字人生成领域长期存在的控制-质量两难问题——...

4个月前 AI新闻

209

TeleStyle：中国电信开源的零样本高保真图像视频风格迁移框架

TeleStyle是由中国电信人工智能研究院（Tele-AI）开源的内容保留式图像与视频双模态风格迁移模型，基于Qwen-Image-Edit基座与DiT架构构建，在不微调、不针对特定风格训练的...

4个月前 AI新闻

207

LLaMA-Factory：一站式大模型高效微调框架，零代码适配百种模型与全流程训练

LLaMA-Factory是一站式统一高效大语言模型与多模态模型微调框架，项目核心目标是降低大模型定制化训练的技术门槛，让零基础用户、开发者、科研人员与企业工程师，都能在无需...

4个月前 AI新闻

173

HoloCine：开源电影级多镜头长视频叙事生成框架，实现跨镜头视觉与叙事双一致性

HoloCine是由香港科技大学、蚂蚁集团等机构联合推出的开源文本到视频（T2V）项目，该项目以整体生成为核心理念，通过窗口交叉注意、稀疏镜头间自注意两大核心机制，实现电影...

4个月前 AI新闻

207

LingBot-World：蚂蚁灵波开源的AI世界模拟器，支持多场景交互与视频生成

LingBot-World是一款面向交互式世界建模的开源世界模拟器，核心源于视频生成技术，由蚂蚁灵波开发并维护，定位为顶级开源世界模型。它通过从大规模游戏环境中学习物理规律与...

4个月前 AI新闻

163

DeepSpeed-MII：DeepSpeed 团队推出的大模型推理高性能优化与部署工具

DeepSpeed-MII是由微软DeepSpeed团队打造的开源Python大模型推理部署专用库，全称为Model Implementations for Inference，是DeepSpeed生态中聚焦于模型推理阶段的核心组件...

4个月前 AI新闻

138

Earth2Studio：英伟达开源的 AI 天气气候预测与分析工具包

Earth2Studio是一款由英伟达基于Python开发的开源AI推理流水线工具包，核心定位是为天气和气候科学领域提供“开箱即用”的AI开发与应用解决方案。其核心目标是打破AI地球系...

4个月前 AI新闻

143

vLLM：高性能开源LLM推理库，低延迟高吞吐且兼容多生态部署解决方案

vLLM是一款高性能开源大语言模型（LLM）推理与服务库，核心依托PagedAttention分页注意力机制、连续批处理等技术创新，解决传统LLM推理中显存利用率低、延迟高、吞吐量低的...

4个月前 AI新闻

134

LingBot-Depth：蚂蚁灵波推出的开源高精度深度视觉模型，赋能机器人与3D视觉场景

LingBot-Depth是蚂蚁集团旗下灵波科技（Robbyant）开源的高精度空间感知模型，基于创新的掩码深度建模（MDM）范式，无需更换高端硬件，即可将消费级RGB-D相机的原始深度数据...

4个月前 AI新闻

190

开源项目新闻、工具、教程及资源推荐

BitDance：字节跳动开源的二进制令牌自回归超快高分辨率AI图像生成模型

Maestro：开源 AI 代理编排指挥中心，多任务并行与无人值守自动化工具

OpenStoryline：小红书开源的 AI 对话式视频创作智能体，零门槛全流程自动生成视频

Clawra：SumeLabs 推出的 OpenClaw 智能体专属 AI 自拍生成扩展

NanoBot：港大开源的轻量级个人AI智能体框架，极简架构复刻核心Agent能力

PaperBanana：北大联合谷歌开源的学术插图自动生成框架

InteractAvatar：面向场景物体交互的开源 AI 说话数字人生成框架

TeleStyle：中国电信开源的零样本高保真图像视频风格迁移框架

LLaMA-Factory：一站式大模型高效微调框架，零代码适配百种模型与全流程训练

HoloCine：开源电影级多镜头长视频叙事生成框架，实现跨镜头视觉与叙事双一致性

LingBot-World：蚂蚁灵波开源的AI世界模拟器，支持多场景交互与视频生成

DeepSpeed-MII：DeepSpeed 团队推出的大模型推理高性能优化与部署工具

Earth2Studio：英伟达开源的 AI 天气气候预测与分析工具包

vLLM：高性能开源LLM推理库，低延迟高吞吐且兼容多生态部署解决方案

LingBot-Depth：蚂蚁灵波推出的开源高精度深度视觉模型，赋能机器人与3D视觉场景