FG-CLIP:360开源的中英双语细粒度视觉-文本对齐模型,实现跨模态精准匹配与理解
FG-CLIP是360开源的一系列细粒度视觉-文本跨模态对齐模型,专注于解决视觉与文本信息的精准匹配问题,尤其擅长细粒度特征对齐,且原生支持中英双语。该模型通过两阶段分层学...
FG-CLIP是360开源的一系列细粒度视觉-文本跨模态对齐模型,专注于解决视觉与文本信息的精准匹配问题,尤其擅长细粒度特征对齐,且原生支持中英双语。该模型通过两阶段分层学...
SWE-1.5是Cognition.ai推出的软件工程专用Agent模型,属于其“速度与智能兼顾”研发路线的核心成果,也是该团队继2025年10月16日发布“SWE-grep”(专注快速上下文工程的模...
在深度学习领域,我们常听到微调这个关键词。微调(Fine-tuning)的核心逻辑,就是让这个“通才”通过少量特定任务数据的学习,快速适应新任务,成为“专才”。这一过程无需...
olmocr 是由AllenAI开源的文档 OCR 工具包,专注于将 PDF、PNG、JPEG 等图像格式的文档转换为结构化、可读的纯文本(尤其是 Markdown 格式)。它基于 7B 参数的视觉语言模型...
GPT是自然语言处理(NLP)领域最具颠覆性的技术之一,自2018年OpenAI推出GPT-1以来,该技术已迭代至GPT-4,参数规模从1.17亿增长至1.8万亿,训练数据量突破5700亿单词。GPT...
Orpheus TTS是由Canopy AI开发的开源文本到语音(TTS)系统,以Llama-3b大型语言模型(LLM)为骨干,突破性地将LLM能力应用于语音合成领域。该项目支持零样本语音克隆、可控...
OpenPI是由Physical Intelligence团队开源的机器人智能模型工具包,核心目标是降低机器人“感知-理解-动作”全链路技术的开发门槛。它基于10k+小时的真实机器人交互数据,提...
本文介绍了大模型应用开发中Pydantic解析器的使用展开,首先说明Pydantic解析器可解决非结构化文本转结构化数据的核心问题(结构化输出、数据验证、提升开发效率、增强程序...
DreamOmni2是一款开源多模态指令驱动图像编辑与生成模型,支持基于文本和图像参考的跨模态内容创作。其核心优势在于统一架构下兼顾生成与编辑任务,能精准保持对象身份、姿...
本文通俗拆解大语言模型(LLM)工作机制,从核心原理(概率预测 token、Transformer 注意力机制)、五大技术架构模块、预训练 - 微调 - 对齐三阶段训练流程,到 “写智能台...
