Skyvern:开源浏览器工作流自动化工具,基于LLM与计算机视觉实现灵活可靠的网页交互
Skyvern是一款基于大语言模型(LLMs)和计算机视觉的开源浏览器工作流自动化工具,旨在解决传统自动化方案(如依赖XPath或DOM解析)的脆弱性问题。它通过视觉理解和逻辑推理...
Skyvern是一款基于大语言模型(LLMs)和计算机视觉的开源浏览器工作流自动化工具,旨在解决传统自动化方案(如依赖XPath或DOM解析)的脆弱性问题。它通过视觉理解和逻辑推理...
DeepSeek-OCR 是由 deepseek-ai 团队开源的高性能 OCR 模型,核心聚焦于从 LLM 视角探索视觉 - 文本压缩技术,支持图像、PDF 等多模态输入的文本提取。该模型提供 Native和...
Qwen3-VL 是 Qwen 系列开源的强大多模态视觉 - 语言模型,支持图像 / 视频理解、文本交互、视觉代理等全场景任务,具备长上下文处理、空间感知、跨语言 OCR 等核心能力,提...
LiveCC 是一款开源实时视频解说大语言模型(Video LLM),旨在通过融合视频视觉信息与流式语音转录(ASR)文本,实现对视频内容的实时理解与动态解说。该项目提供从数据生产...
Katakate(简称 k7)是一个开源的轻量级安全 VM 沙箱工具,基于 Kubernetes、Kata Containers 和 Firecracker 等成熟技术构建,旨在为大规模 AI 计算、无服务器架构、CI/CD...
Open Notebook 是一款开源、隐私优先的研究工具,作为 Google Notebook LM 的替代方案,支持本地化部署与数据自主控制。它兼容 16+ AI 模型,可管理 PDF、音视频等多模态内...
2025年10月21日,OpenAI正式发布ChatGPT Atlas——一款以ChatGPT为核心构建的全新网页浏览器。这款产品突破传统浏览器的功能边界,旨在将AI“超级助手”体验融入网页使用全...
ChopperBot 是一款开源全自动化多平台直播切片机器人,专注于直播视频的全流程处理,涵盖热门直播爬取、智能切片、标题封面生成及跨平台发布等功能。其采用插件化架构,支持...
VitaBench 是一款由美团与 Sierra Research 联合开发的开源基准测试框架,专为评估大型语言模型(LLM)智能体在真实生活服务场景中的综合能力而设计。该框架通过模拟外卖、...
Genkit是Google Firebase团队开发并开源的全栈AI应用开发框架,核心目标是简化AI应用从开发、测试到生产部署的全流程。该框架提供统一接口,可无缝集成Google Gemini、Open...