CV基础知识全解析:像素、卷积、特征提取一次搞明白
计算机视觉(Computer Vision, CV)作为人工智能的核心领域,其技术基础建立在像素处理、卷积运算与特征提取三大支柱之上。本文AI铺子将从底层原理出发,系统解析这三个关键...
计算机视觉(Computer Vision, CV)作为人工智能的核心领域,其技术基础建立在像素处理、卷积运算与特征提取三大支柱之上。本文AI铺子将从底层原理出发,系统解析这三个关键...
Trusted MCP是火山引擎基于标准MCP协议开发的开源可信模型上下文协议,通过身份验证、数据加密和远程证明等技术,解决AI服务组件通信中的身份伪造、数据篡改、隐私泄露等问...
Goose是一款面向开发者的本地可扩展开源AI代理工具,区别于普通代码建议工具,它具备端到端自主执行能力,可实现从0构建项目、编写执行代码、调试故障、协调工作流及与外部...
ebook2audiobook是一款开源的电子书转有声书工具,核心功能是将非DRM合法电子书转换为带章节结构与元数据的有声书。工具支持1110+种语言,集成XTTSv2、Bark、Vits等主流TTS...
在AI技术深度渗透的今天,检索增强生成(RAG)已成为突破大模型知识局限的核心技术。通过将外部知识库与生成模型深度融合,RAG有效解决了传统大模型在时效性、准确性和专业...
OmniVinci是由NVIDIA等机构开发的开源全模态理解大语言模型(Omni-Modal Understanding LLM),旨在通过创新架构与高效数据构建,实现对视觉(图像、视频)、音频、文本信息...
OpenMemory是一款开源、自托管、框架无关的AI记忆引擎,旨在为大型语言模型(LLM)应用提供持久化、结构化和语义化的记忆能力。它通过独特的分层记忆分解(HMD v2)架构,解...
LongCat-Video是美团LongCat团队开源的基础视频生成模型,基于13.6B参数构建,采用统一架构原生支持文本转视频、图像转视频、视频续接三大任务,核心优势在于高效生成分钟级...
Archon 是一款开源的 AI 编程助手指挥中心,同时作为 Model Context Protocol(MCP)服务器,旨在通过知识管理、任务协同和多工具集成,增强 AI 编程助手(如 Claude Code、...
本文详解大语言模型(LLM)的四大局限性及 ReAct Agent 的核心原理,基于 LangChain 框架手把手教你搭建火车票 AI Agent,涵盖环境准备、工具定义、Prompt 设计、Agent 开发...
