开源框架

MobiAgent：开源可定制移动智能体框架，实现多任务自动化与跨应用协同

MobiAgent是一款开源的可定制移动智能体系统，该框架核心包含MobiMind代理模型家族、AgentRR加速框架与MobiFlow评测基准三大模块，支持通过ADB连接Android设备，实现跨应用...

7个月前 AI新闻

357

InfiniteTalk：开源音频驱动的稀疏帧视频配音框架，支持无限长度多模态视频生成

InfiniteTalk是由美团视觉智能团队开源的音频驱动视频生成框架，专为稀疏帧视频配音（Sparse-Frame Video Dubbing）设计，同时支持图像到视频（Image-to-Video）和视频到视...

7个月前 AI新闻

228

Parallax：开源分布式AI模型服务框架，灵活构建跨节点智能集群

Parallax是一款开源的分布式模型服务框架，由AI技术公司Gradient开发并开源。其核心定位是“让用户在任何地方构建自己的AI集群”，解决传统LLM推理依赖高配置单节点或中心化...

7个月前 AI新闻

197

ViMax：香港大学开源的多智能体端到端视频生成框架，覆盖创意、剧本到成片全链路

ViMax是由香港大学开源多智能体视频生成框架，旨在解决当前AI视频生成“片段短、一致性差、缺乏叙事深度”的核心痛点。该工具集导演、编剧、制片人、视频生成器功能于一体，...

7个月前 AI新闻

567

KTransformers：专注LLM异构优化的CPU-GPU混合推理与微调开源框架

KTransformers是一款基于CPU-GPU异构计算的开源框架，专注于大型语言模型（LLM）的高效推理与微调优化。项目核心包含kt-kernel（高性能推理内核）和kt-sft（轻量化微调框架...

7个月前 AI新闻

311

DroidRun：开源LLM原生移动自动化框架，自然语言掌控跨平台设备交互

DroidRun是一款开源的移动设备自动化框架，核心定位是通过LLM（大语言模型）智能体实现对Android和iOS设备的自然语言控制，让非技术用户与专业开发者都能轻松完成移动设备的...

7个月前 AI新闻

198

InfinityStar：字节跳动开源的统一时空自回归视觉生成框架，高效产出 720p 图像与视频

InfinityStar 是字节跳动开源的视觉生成框架，核心基于统一时空自回归建模，实现了图像与视频生成的一体化解决方案。该框架突破传统自回归模型的局限，首次支持工业级 720p...

7个月前 AI新闻

251

DeepEyesV2：开源多模态智能体框架，融合工具链实现复杂场景可靠推理

DeepEyesV2 是一款开源的多模态智能体框架，以 Qwen-2.5-VL 系列模型为基础，核心创新在于将视觉理解、代码执行与网络搜索三大能力深度融合进单一推理循环，通过 “冷启动微...

7个月前 AI新闻

101

Glyph：开源视觉-文本压缩框架，突破大模型长上下文处理瓶颈

Glyph是一个创新的开源框架，通过视觉-文本压缩技术解决大模型长上下文处理难题。其核心逻辑是将超长文本渲染为紧凑图像，借助视觉-语言模型（VLMs）实现高效语义理解，在降...

8个月前 AI新闻

71

Agent Squad：AWS Labs 开源多代理编排框架，智能处理复杂对话与团队协作

Agent Squad 是 AWS Labs 开发的一款灵活、轻量的开源框架，专注于实现多个 AI 代理（Agents）的高效协作与任务编排，以处理复杂对话场景。它具备智能意图分类、动态代理路...

8个月前 AI新闻

96

LLaVA-OneVision-1.5：EvolvingLMMs-Lab 推出的全流程多模态模型开发工具链

LLaVA-OneVision-1.5 是由 EvolvingLMMs-Lab 开发的全开源多模态模型框架，专注于通过原生分辨率图像训练实现高性能、低成本的大型多模态模型（LMMs）。该项目提供从数据处...

8个月前 AI新闻

72

dInfer：蚂蚁集团推出的扩散语言模型专用高性能推理框架

dInfer 是蚂蚁集团开源的针对扩散语言模型（dLLMs）的高效可扩展推理框架，该框架通过模块化设计将推理流程拆解为模型、扩散迭代管理器、解码策略、KV 缓存管理四大组件，支...

8个月前 AI新闻

39

TANGO：CyberAgent AI Lab开源的语音同步手势视频生成框架

TANGO 是一个由 CyberAgent AI Lab 开发的开源项目，专注于从音频和参考视频生成同步语音手势的全身视频。该项目结合了分层音动嵌入和扩散插值技术，实现了高质量的动作生成...

8个月前 AI新闻

82

MagicTryOn：基于扩散 Transformer 的服装保真视频虚拟试穿开源框架

MagicTryOn是一个开源的视频虚拟试穿框架，其核心定位是“基于扩散Transformer的服装保真型虚拟试穿工具”——区别于传统仅支持单张图像的虚拟试穿方案，该框架首次将“大规...

9个月前 AI新闻

124

Hunyuan3D-Omni：腾讯混元开源的多模态条件控制 3D 资产生成框架

Hunyuan3D-Omni是腾讯混元团队推出的开源3D资产生成框架，该框架通过统一的控制编码器，能够接收多种不同类型的控制信号，实现对3D资产生成过程的精确引导。。它不仅能根据...

9个月前 AI新闻

56

开源框架新闻、工具、教程及资源推荐

MobiAgent：开源可定制移动智能体框架，实现多任务自动化与跨应用协同

InfiniteTalk：开源音频驱动的稀疏帧视频配音框架，支持无限长度多模态视频生成

Parallax：开源分布式AI模型服务框架，灵活构建跨节点智能集群

ViMax：香港大学开源的多智能体端到端视频生成框架，覆盖创意、剧本到成片全链路

KTransformers：专注LLM异构优化的CPU-GPU混合推理与微调开源框架

DroidRun：开源LLM原生移动自动化框架，自然语言掌控跨平台设备交互

InfinityStar：字节跳动开源的统一时空自回归视觉生成框架，高效产出 720p 图像与视频

DeepEyesV2：开源多模态智能体框架，融合工具链实现复杂场景可靠推理

Glyph：开源视觉-文本压缩框架，突破大模型长上下文处理瓶颈

Agent Squad：AWS Labs 开源多代理编排框架，智能处理复杂对话与团队协作

LLaVA-OneVision-1.5：EvolvingLMMs-Lab 推出的全流程多模态模型开发工具链

dInfer：蚂蚁集团推出的扩散语言模型专用高性能推理框架

TANGO：CyberAgent AI Lab开源的语音同步手势视频生成框架

MagicTryOn：基于扩散 Transformer 的服装保真视频虚拟试穿开源框架

Hunyuan3D-Omni：腾讯混元开源的多模态条件控制 3D 资产生成框架