AI工具集的个人主页

Chroma 1.0：FlashLabs 推出的开源实时语音 AI 模型，实现低延迟对话与语音克隆

Chroma 1.0是由FlashLabs开源的全球首款开源、实时、端到端口语对话模型，核心定位是解决传统语音交互系统“先转文字再生成语音”的繁琐流程，以及语音克隆效果差、延迟高的...

3个月前 AI工具集

131

ALwrity：免费开源的全栈 AI 写作工具，支持多平台内容生成与 SEO 优化

ALwrity是一款基于Python和React构建的开源AI驱动数字营销平台，它整合了AI内容生成、SEO分析、多平台适配、事实核查等核心能力，适配博客、LinkedIn、社交媒体等多场景内容...

3个月前 AI工具集

100

本地部署IndexTTS2全流程详解：从环境配置到WebUI启动

本文提供B站开源工业级零样本文本转语音模型IndexTTS2的完整本地部署教程，涵盖Ubuntu系统环境搭建、依赖安装、模型下载、国内镜像加速技巧及WebUI可视化界面启动步骤。支持...

3个月前 AI工具集

673

Fabric：开源AI增强框架，实现LLM能力与本地工作流的无缝集成

Fabric是由Daniel Miessler开发的开源AI增强框架，主打命令行原生交互，通过Pattern模式实现AI提示词的工程化管理与复用，支持多主流LLM模型与服务商适配，能将AI能力无缝集...

3个月前 AI工具集

82

从零部署 MiniCPM-V 4.5：详解8B多模态模型在本地环境的完整搭建流程

深度解析 MiniCPM-V 4.5 多模态大模型，手把手教你完成本地部署。支持高精度 OCR 与长视频理解，基于 Ubuntu 环境，适配 GGUF 量化，轻松在消费级硬件运行视觉语言模型。

3个月前 AI工具集

233

AgentCPM-GUI：开源多模态设备端智能体，一键实现安卓应用自动化操作

AgentCPM-GUI是一款面向安卓系统的开源设备端GUI（图形用户界面）智能代理，核心能力是接收用户自然语言指令与智能手机屏幕截图，通过对GUI元素的识别、理解与推理，自主生...

3个月前 AI工具集

106

Engram：DeepSeek开源的大模型静态记忆增强工具，实现记忆与计算的最优分配

Engram是由DeepSeek AI开源的大语言模型条件记忆模块，作为混合专家（MoE）之外的互补稀疏性方案，它将经典N-gram嵌入现代化，实现了O(1)时间复杂度的知识查找。该模块通过...

3个月前 AI工具集

177

FantasyWorld：高德地图联合北邮推出的几何一致型 3D 世界建模开源框架

FantasyWorld 是由高德地图（AMAP）与北京邮电大学联合研发的开源 3D 世界建模框架，核心围绕几何一致的世界建模目标，通过在冻结的视频基础模型上增设可训练的几何分支，实...

3个月前 AI工具集

224

手把手教你部署 SAM 3 模型：从环境搭建到 Web 界面运行

手把手教你部署 SAM 3 模型！从环境搭建、模型下载到 Web 界面运行，完整教程覆盖 Ubuntu + Conda + Gradio 部署全流程，支持文本/点/框多模态分割提示，低显存友好，即刻体...

3个月前 AI工具集

692

MMSI-Video-Bench：上海AI Lab开源的视频空间智能评测基准

MMSI-Video-Bench是一款开源的视频空间智能专项评测基准。该基准聚焦多模态大模型（MLLMs）在视频场景下的空间智能能力评估，构建了覆盖“感知-规划-预测-跨视频推理”的四...

3个月前 AI工具集

95

AI工具集

文章

工具

软件

图书

Chroma 1.0：FlashLabs 推出的开源实时语音 AI 模型，实现低延迟对话与语音克隆

ALwrity：免费开源的全栈 AI 写作工具，支持多平台内容生成与 SEO 优化

本地部署IndexTTS2全流程详解：从环境配置到WebUI启动

Fabric：开源AI增强框架，实现LLM能力与本地工作流的无缝集成

从零部署 MiniCPM-V 4.5：详解8B多模态模型在本地环境的完整搭建流程

AgentCPM-GUI：开源多模态设备端智能体，一键实现安卓应用自动化操作

Engram：DeepSeek开源的大模型静态记忆增强工具，实现记忆与计算的最优分配

FantasyWorld：高德地图联合北邮推出的几何一致型 3D 世界建模开源框架

手把手教你部署 SAM 3 模型：从环境搭建到 Web 界面运行

MMSI-Video-Bench：上海AI Lab开源的视频空间智能评测基准