Step-Audio-EditX:阶跃星辰推出的开源AI音频编辑工具,支持零样本TTS与多维度语音特征定制
Step-Audio-EditX是阶跃星辰推出的一款开源音频编辑工具,基于 30 亿参数的大语言模型(LLM)构建,专注于提供富有表现力和迭代式的音频编辑体验。该工具不仅支持普通话、英...
Step-Audio-EditX是阶跃星辰推出的一款开源音频编辑工具,基于 30 亿参数的大语言模型(LLM)构建,专注于提供富有表现力和迭代式的音频编辑体验。该工具不仅支持普通话、英...
PageIndex是由VectifyAI开源的一款无向量检索增强生成(RAG)系统,旨在解决传统向量数据库在长文档检索中依赖语义相似性导致的准确性问题。它通过构建层级树状索引模拟人类...
Open-o3 Video是一款专注于可验证视频理解的开源项目,通过整合关键时间戳、目标边界框等时空证据,解决了传统视频推理“结论无依据、过程不可验证”的痛点。项目构建了专用...
NocoBase是一款开源可扩展的AI无代码开发平台,通过数据模型驱动设计、AI员工集成、全插件化架构等核心特性,帮助团队无需编程即可快速搭建业务系统(如CRM、ERP、数据协作...
UNO-Bench是由美团LongCat团队开发的开源全模态模型评估基准,旨在系统衡量全模态模型的单模态与全模态能力。该基准涵盖44种任务类型、5种模态组合,包含1250个人工构建的全...
UniWorld-V2 是一款开源的AI图像编辑模型,专注于提升扩散模型的复杂编辑能力。该项目通过创新的 DiffusionNFT 技术和基于预训练多模态大模型(MLLMs)的无训练奖励模型,实...
Ouro 是多机构联合研发的开源循环语言模型系列,核心创新在于将“推理能力”融入预训练阶段,而非依赖传统大语言模型(LLM)的 post-training 显式文本生成。该系列包含 Ou...
FG-CLIP是360开源的一系列细粒度视觉-文本跨模态对齐模型,专注于解决视觉与文本信息的精准匹配问题,尤其擅长细粒度特征对齐,且原生支持中英双语。该模型通过两阶段分层学...
SAIL-Embedding是字节跳动在Hugging Face平台开源的全模态嵌入基础模型,该模型突破传统单模态嵌入的局限,可将文本、图像等多类型数据映射至统一向量空间,实现跨模态特征...
MindsDB是一款开源AI驱动的数据处理服务器,内置AI联邦查询引擎与MCP服务器,核心遵循“连接、统一、响应”三大哲学。它支持连接数百种企业数据源,无需复杂ETL即可通过知识...