Glyph:开源视觉-文本压缩框架,突破大模型长上下文处理瓶颈
Glyph是一个创新的开源框架,通过视觉-文本压缩技术解决大模型长上下文处理难题。其核心逻辑是将超长文本渲染为紧凑图像,借助视觉-语言模型(VLMs)实现高效语义理解,在降...
Glyph是一个创新的开源框架,通过视觉-文本压缩技术解决大模型长上下文处理难题。其核心逻辑是将超长文本渲染为紧凑图像,借助视觉-语言模型(VLMs)实现高效语义理解,在降...
Agent Squad 是 AWS Labs 开发的一款灵活、轻量的开源框架,专注于实现多个 AI 代理(Agents)的高效协作与任务编排,以处理复杂对话场景。它具备智能意图分类、动态代理路...
LLaVA-OneVision-1.5 是由 EvolvingLMMs-Lab 开发的全开源多模态模型框架,专注于通过原生分辨率图像训练实现高性能、低成本的大型多模态模型(LMMs)。该项目提供从数据处...
dInfer 是蚂蚁集团开源的针对扩散语言模型(dLLMs)的高效可扩展推理框架,该框架通过模块化设计将推理流程拆解为模型、扩散迭代管理器、解码策略、KV 缓存管理四大组件,支...
TANGO 是一个由 CyberAgent AI Lab 开发的开源项目,专注于从音频和参考视频生成同步语音手势的全身视频。该项目结合了分层音动嵌入和扩散插值技术,实现了高质量的动作生成...
MagicTryOn是一个开源的视频虚拟试穿框架,其核心定位是“基于扩散Transformer的服装保真型虚拟试穿工具”——区别于传统仅支持单张图像的虚拟试穿方案,该框架首次将“大规...
Hunyuan3D-Omni是腾讯混元团队推出的开源3D资产生成框架,该框架通过统一的控制编码器,能够接收多种不同类型的控制信号,实现对3D资产生成过程的精确引导。。它不仅能根据...