SAIL-VL2:字节跳动开源的视觉语言模型,高效推理与细粒度视觉理解兼备
SAIL-VL2 是字节跳动开源的视觉语言模型,以 2B/8B 参数规模实现了行业顶尖性能,在 106 个数据集上验证了其在视觉问答、文档理解、图表解读等多任务中的有效性。该模型通过...
SAIL-VL2 是字节跳动开源的视觉语言模型,以 2B/8B 参数规模实现了行业顶尖性能,在 106 个数据集上验证了其在视觉问答、文档理解、图表解读等多任务中的有效性。该模型通过...
LLaVA-OneVision-1.5 是由 EvolvingLMMs-Lab 开发的全开源多模态模型框架,专注于通过原生分辨率图像训练实现高性能、低成本的大型多模态模型(LMMs)。该项目提供从数据处...
10 月 16 日,人工智能领域迎来新动态,知名人工智能公司 Anthropic 在其官网正式发布了新款小型 AI 模型 Claude Haiku4.5。这款模型凭借独特优势,一经推出便备受瞩目。...
近日,字节跳动在Hugging Face平台正式开源了FaceCLIP——一款专注于人脸理解与生成的视觉-语言模型。该工具通过文本提示与参考图像结合,可生成身份特征高度保留且表情、姿...
Youtu-Embedding是腾讯优图实验室开发的业界领先通用文本表示模型,开源于GitHub平台。该模型通过“LLM预训练→弱监督对齐→协同-判别式微调”三阶段创新流程,在权威中文文...
AIxiezuo一款开源的AI小说生成系统,基于LangChain框架构建,核心定位为“专业化AI辅助小说创作工具”。该系统支持DeepSeek、OpenAI(GPT-3.5/4)、Claude、Gemini等主流大...
XunLong (寻龙) 是一个基于大语言模型 (LLM) 的多智能体内容生成系统,能够根据自然语言指令自动生成高质量的研究报告、小说和演示文稿 (PPT)。通过 LangGraph 实现智能体协...
dInfer 是蚂蚁集团开源的针对扩散语言模型(dLLMs)的高效可扩展推理框架,该框架通过模块化设计将推理流程拆解为模型、扩散迭代管理器、解码策略、KV 缓存管理四大组件,支...
近日,谷歌正式推出Nano Banana图像编辑功能,并在其Gemini应用中收获了良好反响。这一功能现已集成至AI模式和Google Lens,为用户提供更便捷的图像编辑与生成服务。根据...
据The Information报道,全球估值最高的AI编码助手公司Anysphere正与Coatue、Accel等顶级投资机构洽谈新一轮融资,融资规模至少10亿美元,融资前估值已飙升至270亿美元。这...