手把手教你部署 SAM 3 模型:从环境搭建到 Web 界面运行
手把手教你部署 SAM 3 模型!从环境搭建、模型下载到 Web 界面运行,完整教程覆盖 Ubuntu + Conda + Gradio 部署全流程,支持文本/点/框多模态分割提示,低显存友好,即刻体...
手把手教你部署 SAM 3 模型!从环境搭建、模型下载到 Web 界面运行,完整教程覆盖 Ubuntu + Conda + Gradio 部署全流程,支持文本/点/框多模态分割提示,低显存友好,即刻体...
MMSI-Video-Bench是一款开源的视频空间智能专项评测基准。该基准聚焦多模态大模型(MLLMs)在视频场景下的空间智能能力评估,构建了覆盖“感知-规划-预测-跨视频推理”的四...
LTX-2是由Lightricks团队开源的音视频生成基础模型项目,不同于传统音视频生成模型“音频+视频”分离式设计,LTX-2从底层架构上实现了音视频同步生成,且无需依赖多个独立模...
阿里巴巴Wan团队开源Wan2.2-Animate-14B模型,支持静态图生成高保真角色动画。本文详解Ubuntu系统下基于ComfyUI的本地部署全流程,涵盖环境配置、依赖安装、模型下载与运行...
Open Interpreter是一款开源的大语言模型代码执行工具,核心解决OpenAI官方Code Interpreter托管式、闭源、限制多的痛点,支持在本地环境运行Python、Javascript、Shell等多...
DLCM(Dynamic Large Concept Models)是字节跳动等机构联合推出的开源分层语言建模框架,打破传统LLM的token级均匀计算范式,通过端到端学习语义边界,将计算资源从冗余to...
RedInk(中文名:红墨)是一款面向内容创作者的开源AI图文创作工具,核心定位是解决小红书等社交平台图文创作效率低、风格不统一、内容构思难等问题。该项目以“一句话生成...
Vibe Kanban是由BloopAI开源的一款专为开发者设计的AI编码代理协作与项目管理工具,基于看板模式提供可视化任务管理界面。它支持Claude Code、Gemini CLI等主流AI编码代理的...
StoryMem是一款开源的多镜头长视频叙事生成工具,依托记忆条件控制的单镜头视频扩散模型,能够根据含逐镜头文本描述的故事脚本,生成时长约一分钟、角色高度连贯且具备电影...
InstanceAssemble是一款面向布局到图像(Layout-to-Image)生成的开源轻量级框架,该项目聚焦解决传统图像生成技术中“空间布局控制不精准”的核心痛点——无论是稀疏布局(...
