LongCat-Video:美团开源的13.6B参数多任务视频生成模型,高效输出分钟级720p长视频
LongCat-Video是美团LongCat团队开源的基础视频生成模型,基于13.6B参数构建,采用统一架构原生支持文本转视频、图像转视频、视频续接三大任务,核心优势在于高效生成分钟级...
LongCat-Video是美团LongCat团队开源的基础视频生成模型,基于13.6B参数构建,采用统一架构原生支持文本转视频、图像转视频、视频续接三大任务,核心优势在于高效生成分钟级...
AgentBoard 是一款开源浏览器扩展,定位为 “浏览器中的 AI 交换机”,支持集成 OpenAI、Anthropic、Google 等主流 AI 模型及本地 Ollama 模型,通过自定义工具脚本(WebMC...
Kimi CLI是Moonshot AI开发的开源命令行AI代理工具,旨在通过自然语言交互简化终端操作与软件开发任务。它支持类Shell交互、Zsh集成、多工具链调用(文件操作、网络搜索等)...
Archon 是一款开源的 AI 编程助手指挥中心,同时作为 Model Context Protocol(MCP)服务器,旨在通过知识管理、任务协同和多工具集成,增强 AI 编程助手(如 Claude Code、...
OpenEnv 是由 Meta-PyTorch 主导开发的开源端到端框架,专为强化学习(RL)代理训练设计。它通过统一的 Gymnasium 风格 API(如step()、reset())简化环境交互,依托 Docke...
ViNote 是一款开源的 AI 视频处理工具,核心定位是 “视记 AI・让每个视频成为你的知识资产”。它支持 YouTube、Bilibili 等主流平台视频的解析,通过 AI 技术实现音频转录...
Skyvern是一款基于大语言模型(LLMs)和计算机视觉的开源浏览器工作流自动化工具,旨在解决传统自动化方案(如依赖XPath或DOM解析)的脆弱性问题。它通过视觉理解和逻辑推理...
DeepSeek-OCR 是由 deepseek-ai 团队开源的高性能 OCR 模型,核心聚焦于从 LLM 视角探索视觉 - 文本压缩技术,支持图像、PDF 等多模态输入的文本提取。该模型提供 Native和...
Qwen3-VL 是 Qwen 系列开源的强大多模态视觉 - 语言模型,支持图像 / 视频理解、文本交互、视觉代理等全场景任务,具备长上下文处理、空间感知、跨语言 OCR 等核心能力,提...
LiveCC 是一款开源实时视频解说大语言模型(Video LLM),旨在通过融合视频视觉信息与流式语音转录(ASR)文本,实现对视频内容的实时理解与动态解说。该项目提供从数据生产...