可灵AI O1全量上线:统一多模态架构开启视频创作“一句话时代”
可灵AI公司今日正式宣布,其自主研发的全球首个统一多模态视频大模型O1于零时起面向公众全量开放。该模型凭借MVL(多模态视觉语言)统一交互架构与Chain-of-Thought推理链路...
可灵AI公司今日正式宣布,其自主研发的全球首个统一多模态视频大模型O1于零时起面向公众全量开放。该模型凭借MVL(多模态视觉语言)统一交互架构与Chain-of-Thought推理链路...
语义分割作为计算机视觉领域的核心技术之一,旨在将图像中的每个像素赋予语义类别标签,实现从像素级到语义级的理解。本文AI铺子将从架构原理、经典模型、评估指标三个维度...
ChronoEdit是英伟达NVIDIA多伦多AI实验室(nv-tlabs)开发的开源图像编辑与世界模拟工具,核心创新在于将传统图像编辑重构为视频生成任务——以输入图像和目标编辑图像作为...
近日,网易云音乐旗下创新项目“网易天音”正式推出“AI写歌”趣味功能并开启上线测试。“AI写歌”功能具备免费使用、操作便捷两大核心优势。用户只需在网易云音乐移动端首...
WithAnyone是由复旦大学与阶跃星辰联合开源的多身份AI合照生成项目,基于FLUX扩散模型架构构建,核心解决传统人像生成中的“复制粘贴”伪影问题。该项目通过大规模配对数据...
ViMax是由香港大学开源多智能体视频生成框架,旨在解决当前AI视频生成“片段短、一致性差、缺乏叙事深度”的核心痛点。该工具集导演、编剧、制片人、视频生成器功能于一体,...
HunyuanOCR是腾讯混元开源的端到端OCR专家模型,基于混元原生多模态架构构建,仅1B参数便实现了业界多项SOTA性能。该工具覆盖文字检测识别、复杂文档解析、开放字段信息抽取...
字节跳动旗下智能输入工具豆包输入法近日宣布正式发布,安卓用户已可通过官网及各大应用商店下载体验,iOS版本也将于近期上线。作为基于豆包App同款语音模型打造的输入产品...
YakGPT是一个基于Web技术开发的开源ChatGPT UI工具,其核心定位是“简单、本地运行、高效交互”的智能聊天平台。与官方ChatGPT界面不同,YakGPT无需用户下载安装独立应用,...
DocsGPT 是一款面向开发者与企业的开源 AI 平台,核心聚焦智能代理构建、文档智能分析与企业级搜索场景。它支持 PDF、DOCX 等数十种文件格式解析与多源数据集成,兼容主流 ...
