FG-CLIP:360开源的中英双语细粒度视觉-文本对齐模型,实现跨模态精准匹配与理解
FG-CLIP是360开源的一系列细粒度视觉-文本跨模态对齐模型,专注于解决视觉与文本信息的精准匹配问题,尤其擅长细粒度特征对齐,且原生支持中英双语。该模型通过两阶段分层学...
FG-CLIP是360开源的一系列细粒度视觉-文本跨模态对齐模型,专注于解决视觉与文本信息的精准匹配问题,尤其擅长细粒度特征对齐,且原生支持中英双语。该模型通过两阶段分层学...
SAIL-Embedding是字节跳动在Hugging Face平台开源的全模态嵌入基础模型,该模型突破传统单模态嵌入的局限,可将文本、图像等多类型数据映射至统一向量空间,实现跨模态特征...
DreamOmni2是一款开源多模态指令驱动图像编辑与生成模型,支持基于文本和图像参考的跨模态内容创作。其核心优势在于统一架构下兼顾生成与编辑任务,能精准保持对象身份、姿...
10 月 16 日,人工智能领域迎来新动态,知名人工智能公司 Anthropic 在其官网正式发布了新款小型 AI 模型 Claude Haiku4.5。这款模型凭借独特优势,一经推出便备受瞩目。...
SAIL-VL2 是字节跳动开源的视觉语言模型,以 2B/8B 参数规模实现了行业顶尖性能,在 106 个数据集上验证了其在视觉问答、文档理解、图表解读等多任务中的有效性。该模型通过...
Youtu-Embedding是腾讯优图实验室开发的业界领先通用文本表示模型,开源于GitHub平台。该模型通过“LLM预训练→弱监督对齐→协同-判别式微调”三阶段创新流程,在权威中文文...
近日,开源全能AI对话助手[Cherry Studio]正式推出v1.6.4版本,并首次集成自主研发的CherryIN智能聚合系统。该系统凭借对主流AI模型的深度整合与优化,成为全球首个支持多模...
EchoCare 是一个面向超声临床应用的完全开源基础模型,基于大规模无标注超声影像数据集 EchoAtlas 训练而成。该数据集覆盖全球 5 大洲 23 个临床中心、38 种不同超声设备,...
Lynx是字节跳动Intelligent Creation团队开发的开源高保真个性化视频生成模型,基于Diffusion Transformer(DiT)架构,通过ID-adapter(身份保留)和Ref-adapter(空间细节...
AudioFly是由科大讯飞开源的文本驱动音频生成模型,基于Latent Diffusion Model架构构建,具备10亿参数规模。该模型可依据文本描述合成采样率为44.1kHz的高质量音效,在单事...
FLM-Audio 是一款开源的音频 - 语言融合模型,作为 RoboEgo/FLM-Ego 的子版本,具备原生全双工能力,可同时实现监听、说话与内部独白构建,支持中英文双语言环境下的低延迟...
Qwen3-Omni是由阿里达摩院推出的开源全模态基础模型,支持文本、图像、音频、视频等多类型输入,并能实时输出文本或自然语音。该模型采用创新的“Thinker-Talker”架构与Mo...
FLUX是由Black Forest Labs开发的开源图像生成与编辑模型系列,涵盖文本驱动图像生成、图像填充、结构控制等多元功能。该项目通过模块化设计提供高效推理代码,支持开发者与...
Qianfan-VL是百度智能云千帆推出的开源领域增强多模态理解模型系列,涵盖3B、8B、70B三种参数规模,专注于企业级应用场景。该模型系列在保持通用能力的同时,特别强化了文档...
本文爆改Claude Code Router,打造出如打车般便捷的AI模型调用体验!它支持一键接入50+主流大模型,能根据任务需求(如代码生成、复杂推理等)自动匹配最优模型,动态切换无...