AI模型

ELMo是什么？一文读懂上下文感知词向量的革命性突破

ELMo（Embeddings from Language Models）模型，通过引入深度双向语言模型架构，首次实现了词向量的动态语境感知。本文AI铺子将从技术原理、架构创新、应用场景及局限性四个...

1个月前 AI教程

97

Claude Opus 4.5：Anthropic最新推出的全能型AI模型，覆盖编程/办公/企业级智能任务

Claude Opus 4.5是Anthropic推出的最新一代旗舰AI模型，于2025年11月25日正式发布。它以“智能、高效、安全”为核心特质，在编程、智能体运作、计算机工具使用三大领域确立...

2个月前 AI新闻

74

Kimi-K2：Moonshot AI推出的开源万亿参数混合专家代理智能模型

Kimi-K2是由Moonshot AI开发的开源代理智能模型，基于混合专家（MoE）架构，总参数达1万亿，激活参数320亿，在15.5万亿token上训练而成。该模型专注于工具使用、复杂推理和...

3个月前 AI新闻

16

FG-CLIP：360开源的中英双语细粒度视觉-文本对齐模型，实现跨模态精准匹配与理解

FG-CLIP是360开源的一系列细粒度视觉-文本跨模态对齐模型，专注于解决视觉与文本信息的精准匹配问题，尤其擅长细粒度特征对齐，且原生支持中英双语。该模型通过两阶段分层学...

3个月前 AI新闻

31

SAIL-Embedding：字节跳动推出的全模态嵌入基础模型，支持跨模态检索与通用特征表示

SAIL-Embedding是字节跳动在Hugging Face平台开源的全模态嵌入基础模型，该模型突破传统单模态嵌入的局限，可将文本、图像等多类型数据映射至统一向量空间，实现跨模态特征...

3个月前 AI新闻

54

DreamOmni2：开源多模态指令驱动的图像编辑与生成模型，支持跨模态参考与精准控制

DreamOmni2是一款开源多模态指令驱动图像编辑与生成模型，支持基于文本和图像参考的跨模态内容创作。其核心优势在于统一架构下兼顾生成与编辑任务，能精准保持对象身份、姿...

3个月前 AI新闻

17

Anthropic 发布 Claude Haiku4.5：小型 AI 模型展现强大实力与性价比

10 月 16 日，人工智能领域迎来新动态，知名人工智能公司 Anthropic 在其官网正式发布了新款小型 AI 模型 Claude Haiku4.5。这款模型凭借独特优势，一经推出便备受瞩目。...

3个月前 AI新闻

20

SAIL-VL2：字节跳动开源的视觉语言模型，高效推理与细粒度视觉理解兼备

SAIL-VL2 是字节跳动开源的视觉语言模型，以 2B/8B 参数规模实现了行业顶尖性能，在 106 个数据集上验证了其在视觉问答、文档理解、图表解读等多任务中的有效性。该模型通过...

3个月前 AI新闻

41

Youtu-Embedding：腾讯优图开源通用文本表示模型，领跑 CMTEB 基准的协同 - 差异化学习方案

Youtu-Embedding是腾讯优图实验室开发的业界领先通用文本表示模型，开源于GitHub平台。该模型通过“LLM预训练→弱监督对齐→协同-判别式微调”三阶段创新流程，在权威中文文...

3个月前 AI新闻

41

Cherry Studio v1.6.4震撼发布：集成CherryIN系统，开启AI模型一站式体验新时代

近日，开源全能AI对话助手[Cherry Studio]正式推出v1.6.4版本，并首次集成自主研发的CherryIN智能聚合系统。该系统凭借对主流AI模型的深度整合与优化，成为全球首个支持多模...

4个月前 AI新闻

221

EchoCare：基于自监督学习的开源超声影像基础模型，支持多中心多设备泛化

EchoCare 是一个面向超声临床应用的完全开源基础模型，基于大规模无标注超声影像数据集 EchoAtlas 训练而成。该数据集覆盖全球 5 大洲 23 个临床中心、38 种不同超声设备，...

4个月前 AI新闻

96

Lynx：字节跳动开源高保真个性化视频生成模型

Lynx是字节跳动Intelligent Creation团队开发的开源高保真个性化视频生成模型，基于Diffusion Transformer（DiT）架构，通过ID-adapter（身份保留）和Ref-adapter（空间细节...

4个月前 AI新闻

28

AudioFly：科大讯飞开源的高性能文本到音频生成模型

AudioFly是由科大讯飞开源的文本驱动音频生成模型，基于Latent Diffusion Model架构构建，具备10亿参数规模。该模型可依据文本描述合成采样率为44.1kHz的高质量音效，在单事...

4个月前 AI新闻

34

FLM-Audio：原生全双工音语融合模型，支持中英文低延迟对话交互

FLM-Audio 是一款开源的音频 - 语言融合模型，作为 RoboEgo/FLM-Ego 的子版本，具备原生全双工能力，可同时实现监听、说话与内部独白构建，支持中英文双语言环境下的低延迟...

4个月前 AI新闻

30

Qwen3-Omni：阿里达摩院开源的多模态智能模型，支持实时音视频交互与跨模态理解

Qwen3-Omni是由阿里达摩院推出的开源全模态基础模型，支持文本、图像、音频、视频等多类型输入，并能实时输出文本或自然语音。该模型采用创新的“Thinker-Talker”架构与Mo...

4个月前 AI新闻

43

AI模型新闻、工具、教程及资源推荐

ELMo是什么？一文读懂上下文感知词向量的革命性突破

Claude Opus 4.5：Anthropic最新推出的全能型AI模型，覆盖编程/办公/企业级智能任务

Kimi-K2：Moonshot AI推出的开源万亿参数混合专家代理智能模型

FG-CLIP：360开源的中英双语细粒度视觉-文本对齐模型，实现跨模态精准匹配与理解

SAIL-Embedding：字节跳动推出的全模态嵌入基础模型，支持跨模态检索与通用特征表示

DreamOmni2：开源多模态指令驱动的图像编辑与生成模型，支持跨模态参考与精准控制

Anthropic 发布 Claude Haiku4.5：小型 AI 模型展现强大实力与性价比

SAIL-VL2：字节跳动开源的视觉语言模型，高效推理与细粒度视觉理解兼备

Youtu-Embedding：腾讯优图开源通用文本表示模型，领跑 CMTEB 基准的协同 - 差异化学习方案

Cherry Studio v1.6.4震撼发布：集成CherryIN系统，开启AI模型一站式体验新时代

EchoCare：基于自监督学习的开源超声影像基础模型，支持多中心多设备泛化

Lynx：字节跳动开源高保真个性化视频生成模型

AudioFly：科大讯飞开源的高性能文本到音频生成模型

FLM-Audio：原生全双工音语融合模型，支持中英文低延迟对话交互

Qwen3-Omni：阿里达摩院开源的多模态智能模型，支持实时音视频交互与跨模态理解