AI新闻资讯 - 最新人工智能技术动态与热点资讯

LongCat-Video：美团开源的13.6B参数多任务视频生成模型，高效输出分钟级720p长视频

LongCat-Video是美团LongCat团队开源的基础视频生成模型，基于13.6B参数构建，采用统一架构原生支持文本转视频、图像转视频、视频续接三大任务，核心优势在于高效生成分钟级...

6个月前 AI工具箱

150

AgentBoard：开源浏览器扩展，让 AI 代理灵活连接多模型与工具

AgentBoard 是一款开源浏览器扩展，定位为 “浏览器中的 AI 交换机”，支持集成 OpenAI、Anthropic、Google 等主流 AI 模型及本地 Ollama 模型，通过自定义工具脚本（WebMC...

6个月前人工智能研究所

104

Kimi CLI：Moonshot AI开源的命令行AI代理工具，集成Shell交互与多工具链支持

Kimi CLI是Moonshot AI开发的开源命令行AI代理工具，旨在通过自然语言交互简化终端操作与软件开发任务。它支持类Shell交互、Zsh集成、多工具链调用（文件操作、网络搜索等）...

6个月前 AI铺子

85

Archon：开源 AI 编程助手指挥中心，强化知识协作与多工具集成

Archon 是一款开源的 AI 编程助手指挥中心，同时作为 Model Context Protocol（MCP）服务器，旨在通过知识管理、任务协同和多工具集成，增强 AI 编程助手（如 Claude Code、...

6个月前 AI工具箱

66

OpenEnv：开源强化学习环境框架，支持隔离执行与多场景交互

OpenEnv 是由 Meta-PyTorch 主导开发的开源端到端框架，专为强化学习（RL）代理训练设计。它通过统一的 Gymnasium 风格 API（如step()、reset()）简化环境交互，依托 Docke...

6个月前人工智能研究所

79

ViNote：开源的 AI 视频处理工具，支持视频转笔记与智能问答

ViNote 是一款开源的 AI 视频处理工具，核心定位是 “视记 AI・让每个视频成为你的知识资产”。它支持 YouTube、Bilibili 等主流平台视频的解析，通过 AI 技术实现音频转录...

6个月前 AI铺子

151

Skyvern：开源浏览器工作流自动化工具，基于LLM与计算机视觉实现灵活可靠的网页交互

Skyvern是一款基于大语言模型（LLMs）和计算机视觉的开源浏览器工作流自动化工具，旨在解决传统自动化方案（如依赖XPath或DOM解析）的脆弱性问题。它通过视觉理解和逻辑推理...

6个月前 AI工具箱

68

DeepSeek-OCR：深度求索推出的开源 LLM 视角 OCR 工具，高效提取图像与文档文本

DeepSeek-OCR 是由 deepseek-ai 团队开源的高性能 OCR 模型，核心聚焦于从 LLM 视角探索视觉 - 文本压缩技术，支持图像、PDF 等多模态输入的文本提取。该模型提供 Native和...

6个月前 AI工具箱

126

Qwen3-VL：Qwen 系列推出的强大多模态 AI 模型，打通视觉与语言的智能融合

Qwen3-VL 是 Qwen 系列开源的强大多模态视觉 - 语言模型，支持图像 / 视频理解、文本交互、视觉代理等全场景任务，具备长上下文处理、空间感知、跨语言 OCR 等核心能力，提...

6个月前 AI工具箱

85

LiveCC：开源实时视频解说大模型，融合流式语音转录与多模态理解

LiveCC 是一款开源实时视频解说大语言模型（Video LLM），旨在通过融合视频视觉信息与流式语音转录（ASR）文本，实现对视频内容的实时理解与动态解说。该项目提供从数据生产...

6个月前 97ai

141

AI新闻

热门人工智能技术动态与AI行业资讯

LongCat-Video：美团开源的13.6B参数多任务视频生成模型，高效输出分钟级720p长视频

AgentBoard：开源浏览器扩展，让 AI 代理灵活连接多模型与工具

Kimi CLI：Moonshot AI开源的命令行AI代理工具，集成Shell交互与多工具链支持

Archon：开源 AI 编程助手指挥中心，强化知识协作与多工具集成

OpenEnv：开源强化学习环境框架，支持隔离执行与多场景交互

ViNote：开源的 AI 视频处理工具，支持视频转笔记与智能问答

Skyvern：开源浏览器工作流自动化工具，基于LLM与计算机视觉实现灵活可靠的网页交互

DeepSeek-OCR：深度求索推出的开源 LLM 视角 OCR 工具，高效提取图像与文档文本

Qwen3-VL：Qwen 系列推出的强大多模态 AI 模型，打通视觉与语言的智能融合

LiveCC：开源实时视频解说大模型，融合流式语音转录与多模态理解