AI工具箱的个人主页

ebook2audiobook：开源电子书转有声书工具，支持 1110 + 语言与多模型语音克隆

ebook2audiobook是一款开源的电子书转有声书工具，核心功能是将非DRM合法电子书转换为带章节结构与元数据的有声书。工具支持1110+种语言，集成XTTSv2、Bark、Vits等主流TTS...

7个月前 AI工具箱

162

RAG三大组件详解：检索器、重排序器与生成器

在AI技术深度渗透的今天，检索增强生成（RAG）已成为突破大模型知识局限的核心技术。通过将外部知识库与生成模型深度融合，RAG有效解决了传统大模型在时效性、准确性和专业...

7个月前 AI工具箱

219

OmniVinci：NVIDIA开源的全模态理解大语言模型，高效融合视觉、音频与文本信息

OmniVinci是由NVIDIA等机构开发的开源全模态理解大语言模型（Omni-Modal Understanding LLM），旨在通过创新架构与高效数据构建，实现对视觉（图像、视频）、音频、文本信息...

7个月前 AI工具箱

116

OpenMemory：开源自托管AI记忆引擎，基于分层架构实现LLM持久化语义记忆

OpenMemory是一款开源、自托管、框架无关的AI记忆引擎，旨在为大型语言模型（LLM）应用提供持久化、结构化和语义化的记忆能力。它通过独特的分层记忆分解（HMD v2）架构，解...

7个月前 AI工具箱

194

LongCat-Video：美团开源的13.6B参数多任务视频生成模型，高效输出分钟级720p长视频

LongCat-Video是美团LongCat团队开源的基础视频生成模型，基于13.6B参数构建，采用统一架构原生支持文本转视频、图像转视频、视频续接三大任务，核心优势在于高效生成分钟级...

7个月前 AI工具箱

229

Archon：开源 AI 编程助手指挥中心，强化知识协作与多工具集成

Archon 是一款开源的 AI 编程助手指挥中心，同时作为 Model Context Protocol（MCP）服务器，旨在通过知识管理、任务协同和多工具集成，增强 AI 编程助手（如 Claude Code、...

7个月前 AI工具箱

103

基于 LangChain 搭建 ReAct Agent：从原理到火车票购票任务实操指南

本文详解大语言模型（LLM）的四大局限性及 ReAct Agent 的核心原理，基于 LangChain 框架手把手教你搭建火车票 AI Agent，涵盖环境准备、工具定义、Prompt 设计、Agent 开发...

8个月前 AI工具箱

100

Skyvern：开源浏览器工作流自动化工具，基于LLM与计算机视觉实现灵活可靠的网页交互

Skyvern是一款基于大语言模型（LLMs）和计算机视觉的开源浏览器工作流自动化工具，旨在解决传统自动化方案（如依赖XPath或DOM解析）的脆弱性问题。它通过视觉理解和逻辑推理...

8个月前 AI工具箱

104

DeepSeek-OCR：深度求索推出的开源 LLM 视角 OCR 工具，高效提取图像与文档文本

DeepSeek-OCR 是由 deepseek-ai 团队开源的高性能 OCR 模型，核心聚焦于从 LLM 视角探索视觉 - 文本压缩技术，支持图像、PDF 等多模态输入的文本提取。该模型提供 Native和...

8个月前 AI工具箱

152

Qwen3-VL：Qwen 系列推出的强大多模态 AI 模型，打通视觉与语言的智能融合

Qwen3-VL 是 Qwen 系列开源的强大多模态视觉 - 语言模型，支持图像 / 视频理解、文本交互、视觉代理等全场景任务，具备长上下文处理、空间感知、跨语言 OCR 等核心能力，提...

8个月前 AI工具箱

131

AI工具箱

文章

工具

软件

图书

ebook2audiobook：开源电子书转有声书工具，支持 1110 + 语言与多模型语音克隆

RAG三大组件详解：检索器、重排序器与生成器

OmniVinci：NVIDIA开源的全模态理解大语言模型，高效融合视觉、音频与文本信息

OpenMemory：开源自托管AI记忆引擎，基于分层架构实现LLM持久化语义记忆

LongCat-Video：美团开源的13.6B参数多任务视频生成模型，高效输出分钟级720p长视频

Archon：开源 AI 编程助手指挥中心，强化知识协作与多工具集成

基于 LangChain 搭建 ReAct Agent：从原理到火车票购票任务实操指南

Skyvern：开源浏览器工作流自动化工具，基于LLM与计算机视觉实现灵活可靠的网页交互

DeepSeek-OCR：深度求索推出的开源 LLM 视角 OCR 工具，高效提取图像与文档文本

Qwen3-VL：Qwen 系列推出的强大多模态 AI 模型，打通视觉与语言的智能融合