Whisper:OpenAI 开源多语言语音处理模型,支持语音识别与跨语言翻译
Whisper 是 OpenAI 开发的开源通用语音处理模型,基于 Transformer 架构,通过多任务训练支持多语言语音识别、语音翻译、语言识别等功能。该模型提供 6 种不同规格(从 tin...
Whisper 是 OpenAI 开发的开源通用语音处理模型,基于 Transformer 架构,通过多任务训练支持多语言语音识别、语音翻译、语言识别等功能。该模型提供 6 种不同规格(从 tin...
Shimmy 是一款基于 Rust 开发的轻量级 OpenAI API 兼容服务器,专注于本地大语言模型(LLM)推理。它以 “无依赖、高性能、隐私优先” 为核心优势,提供 100% 兼容 OpenAI ...
DreamOmni2是一款开源多模态指令驱动图像编辑与生成模型,支持基于文本和图像参考的跨模态内容创作。其核心优势在于统一架构下兼顾生成与编辑任务,能精准保持对象身份、姿...
AgentBoard 是一款开源浏览器扩展,定位为 “浏览器中的 AI 交换机”,支持集成 OpenAI、Anthropic、Google 等主流 AI 模型及本地 Ollama 模型,通过自定义工具脚本(WebMC...
Kimi CLI是Moonshot AI开发的开源命令行AI代理工具,旨在通过自然语言交互简化终端操作与软件开发任务。它支持类Shell交互、Zsh集成、多工具链调用(文件操作、网络搜索等)...
Archon 是一款开源的 AI 编程助手指挥中心,同时作为 Model Context Protocol(MCP)服务器,旨在通过知识管理、任务协同和多工具集成,增强 AI 编程助手(如 Claude Code、...
OpenEnv 是由 Meta-PyTorch 主导开发的开源端到端框架,专为强化学习(RL)代理训练设计。它通过统一的 Gymnasium 风格 API(如step()、reset())简化环境交互,依托 Docke...
ViNote 是一款开源的 AI 视频处理工具,核心定位是 “视记 AI・让每个视频成为你的知识资产”。它支持 YouTube、Bilibili 等主流平台视频的解析,通过 AI 技术实现音频转录...
Skyvern是一款基于大语言模型(LLMs)和计算机视觉的开源浏览器工作流自动化工具,旨在解决传统自动化方案(如依赖XPath或DOM解析)的脆弱性问题。它通过视觉理解和逻辑推理...
DeepSeek-OCR 是由 deepseek-ai 团队开源的高性能 OCR 模型,核心聚焦于从 LLM 视角探索视觉 - 文本压缩技术,支持图像、PDF 等多模态输入的文本提取。该模型提供 Native和...
Qwen3-VL 是 Qwen 系列开源的强大多模态视觉 - 语言模型,支持图像 / 视频理解、文本交互、视觉代理等全场景任务,具备长上下文处理、空间感知、跨语言 OCR 等核心能力,提...
Katakate(简称 k7)是一个开源的轻量级安全 VM 沙箱工具,基于 Kubernetes、Kata Containers 和 Firecracker 等成熟技术构建,旨在为大规模 AI 计算、无服务器架构、CI/CD...
Open Notebook 是一款开源、隐私优先的研究工具,作为 Google Notebook LM 的替代方案,支持本地化部署与数据自主控制。它兼容 16+ AI 模型,可管理 PDF、音视频等多模态内...
ChopperBot 是一款开源全自动化多平台直播切片机器人,专注于直播视频的全流程处理,涵盖热门直播爬取、智能切片、标题封面生成及跨平台发布等功能。其采用插件化架构,支持...
VitaBench 是一款由美团与 Sierra Research 联合开发的开源基准测试框架,专为评估大型语言模型(LLM)智能体在真实生活服务场景中的综合能力而设计。该框架通过模拟外卖、...