Skyvern:开源浏览器工作流自动化工具,基于LLM与计算机视觉实现灵活可靠的网页交互
Skyvern是一款基于大语言模型(LLMs)和计算机视觉的开源浏览器工作流自动化工具,旨在解决传统自动化方案(如依赖XPath或DOM解析)的脆弱性问题。它通过视觉理解和逻辑推理...
Skyvern是一款基于大语言模型(LLMs)和计算机视觉的开源浏览器工作流自动化工具,旨在解决传统自动化方案(如依赖XPath或DOM解析)的脆弱性问题。它通过视觉理解和逻辑推理...
DeepSeek-OCR 是由 deepseek-ai 团队开源的高性能 OCR 模型,核心聚焦于从 LLM 视角探索视觉 - 文本压缩技术,支持图像、PDF 等多模态输入的文本提取。该模型提供 Native和...
Qwen3-VL 是 Qwen 系列开源的强大多模态视觉 - 语言模型,支持图像 / 视频理解、文本交互、视觉代理等全场景任务,具备长上下文处理、空间感知、跨语言 OCR 等核心能力,提...
2025年10月21日,OpenAI正式发布ChatGPT Atlas——一款以ChatGPT为核心构建的全新网页浏览器。这款产品突破传统浏览器的功能边界,旨在将AI“超级助手”体验融入网页使用全...
本文将聚焦LLM的Stream流式输出,从核心原理讲起,通过“故事小助手”“科普助手”两个实战案例,带你掌握从基础调用到LCEL表达式的流式落地,最后分析流式输出的优劣势与实...
LongCat-Audio-Codec 是美团 LongCat 团队开源的音频编码(Tokenizer)与解码(Detokenizer)解决方案,专为语音大语言模型(Speech LLM)设计。该方案通过并行生成语义令牌...
nanoGPT是由AI研究者Andrej Karpathy开发的开源项目,基于PyTorch框架构建,定位为“最简单、最高效的中等规模GPT训练与微调仓库”。它是minGPT的重写版本,核心目标是“优...
OpenAssistant 是一款开源的AI对话聊天系统,旨在通过协作模式推动高质量聊天大型语言模型(LLM)的普及。项目提供开放的聊天交互界面、协作式数据收集平台、完整的模型训练...
MineContext 是火山引擎开源的主动式上下文感知 AI 助手,以 “挖掘并整合上下文” 为核心,将分散的多模态数据(文档、截图、音视频等)视为可组合的 “信息方块”,通过轻...
语义分割是计算机视觉领域的核心任务,RGB-D数据(RGB图像与深度图)的融合为语义分割提供了多模态信息,通过结合颜色、纹理与几何结构,显著提升了分割精度。本文系统梳理...
