AI新闻资讯 - 最新人工智能技术动态与热点资讯

Step-Audio-EditX：阶跃星辰推出的开源AI音频编辑工具，支持零样本TTS与多维度语音特征定制

Step-Audio-EditX是阶跃星辰推出的一款开源音频编辑工具，基于 30 亿参数的大语言模型（LLM）构建，专注于提供富有表现力和迭代式的音频编辑体验。该工具不仅支持普通话、英...

4个月前 AI铺子

40

PageIndex：VectifyAI推出的开源无向量检索工具，无需向量库即可高效处理长文档

PageIndex是由VectifyAI开源的一款无向量检索增强生成（RAG）系统，旨在解决传统向量数据库在长文档检索中依赖语义相似性导致的准确性问题。它通过构建层级树状索引模拟人类...

4个月前 97ai

402

Open-o3 Video：开源视频推理框架，整合时空证据实现可验证视频理解

Open-o3 Video是一款专注于可验证视频理解的开源项目，通过整合关键时间戳、目标边界框等时空证据，解决了传统视频推理“结论无依据、过程不可验证”的痛点。项目构建了专用...

4个月前 dotaai

63

NocoBase：开源可扩展的AI增强型无代码开发工具，支持全场景业务系统构建

NocoBase是一款开源可扩展的AI无代码开发平台，通过数据模型驱动设计、AI员工集成、全插件化架构等核心特性，帮助团队无需编程即可快速搭建业务系统（如CRM、ERP、数据协作...

4个月前 AI工具集

76

UNO-Bench：美团推出的开源全模态模型综合评估工具

UNO-Bench是由美团LongCat团队开发的开源全模态模型评估基准，旨在系统衡量全模态模型的单模态与全模态能力。该基准涵盖44种任务类型、5种模态组合，包含1250个人工构建的全...

4个月前 AI工具箱

31

UniWorld-V2：基于 DiffusionNFT 与 MLLMs 的开源 AI 图像编辑模型

UniWorld-V2 是一款开源的AI图像编辑模型，专注于提升扩散模型的复杂编辑能力。该项目通过创新的 DiffusionNFT 技术和基于预训练多模态大模型（MLLMs）的无训练奖励模型，实...

4个月前 AI铺子

58

Ouro：开源预训练循环语言模型（Looped LLM），小参数量匹敌大模型性能

Ouro 是多机构联合研发的开源循环语言模型系列，核心创新在于将“推理能力”融入预训练阶段，而非依赖传统大语言模型（LLM）的 post-training 显式文本生成。该系列包含 Ou...

4个月前 dotaai

31

FG-CLIP：360开源的中英双语细粒度视觉-文本对齐模型，实现跨模态精准匹配与理解

FG-CLIP是360开源的一系列细粒度视觉-文本跨模态对齐模型，专注于解决视觉与文本信息的精准匹配问题，尤其擅长细粒度特征对齐，且原生支持中英双语。该模型通过两阶段分层学...

4个月前 AI工具集

33

SAIL-Embedding：字节跳动推出的全模态嵌入基础模型，支持跨模态检索与通用特征表示

SAIL-Embedding是字节跳动在Hugging Face平台开源的全模态嵌入基础模型，该模型突破传统单模态嵌入的局限，可将文本、图像等多类型数据映射至统一向量空间，实现跨模态特征...

4个月前 AI工具箱

71

MindsDB：开源 AI 驱动的数据处理服务器，支持多源数据整合与智能问答

MindsDB是一款开源AI驱动的数据处理服务器，内置AI联邦查询引擎与MCP服务器，核心遵循“连接、统一、响应”三大哲学。它支持连接数百种企业数据源，无需复杂ETL即可通过知识...

4个月前人工智能研究所

44

AI新闻

热门人工智能技术动态与AI行业资讯