AI Toolkit:Ostris 开源的扩散模型训练工具,兼顾易用性与功能完整性
AI Toolkit是由Ostris团队开源的全能型扩散模型训练套件,其核心定位是为消费级硬件用户提供低成本、高易用性的图像与视频扩散模型训练解决方案。不同于专业级AI训练工具对...
AI Toolkit是由Ostris团队开源的全能型扩散模型训练套件,其核心定位是为消费级硬件用户提供低成本、高易用性的图像与视频扩散模型训练解决方案。不同于专业级AI训练工具对...
STARFlow-V 是苹果团队研发的首款基于归一化流的因果视频生成模型,打破了视频生成领域扩散模型的技术垄断。该模型采用全局 - 局部架构实现时空特征解耦,结合流分数匹配去...
BAGEL是字节跳动Seed团队开源的一款All-in-One多模态统一基础模型,具备7B活跃参数(总参数14B),采用创新的混合Transformer专家(MoT)架构,基于大规模交错式文本、图像...
PartCrafter是由北京大学、字节跳动与卡内基梅隆大学联合开源的结构化 3D 网格生成模型,该模型创新性地采用组合式潜在空间与局部 - 全局联合去噪 Transformer 架构,可直接...
BERT模型凭借其强大的语言理解和生成能力,成为众多任务的核心工具。针对中文文本的特殊性,中文BERT模型在分词粒度选择和分词器适配方面存在独特挑战。本文AI铺子将系统梳...
近日,OpenAI 旗下广受欢迎的人工智能聊天机器人 ChatGPT 遭遇服务故障问题,在 12 月 2 日和 3 日接连出现服务中断情况,致使部分用户无法正常使用该服务,引发广泛关注。...
GELab-Zero是由阶跃星辰开源的GUI智能体解决方案,整合了工程化基础设施与4B轻量模型,主打本地部署、一键启动和多设备任务自动化能力。该项目针对移动生态碎片化带来的工程...
DeepOCR是基于VILA代码库复现Deepseek-OCR的开源项目,核心聚焦于通过视觉-文本令牌压缩技术实现高效OCR任务。其创新的DeepEncoder架构融合SAM(窗口注意力)与CLIP(全局注...
在机器学习与深度学习的训练过程中,损失函数(Loss Function)扮演着核心角色。它通过量化模型预测值与真实值之间的差异,为模型优化提供明确方向。本文AI铺子将系统阐述损...
MOSS-Speech是由复旦大学邱锡鹏教授领衔的OpenMOSS团队(国内知名AI开源团队,曾推出MOSS大模型系列)研发的原生语音到语音(Speech-to-Speech, S2S)开源大模型,旨在打破...
