DeepOCR:开源Deepseek-OCR复现项目,以令牌压缩实现高效多场景OCR
DeepOCR是基于VILA代码库复现Deepseek-OCR的开源项目,核心聚焦于通过视觉-文本令牌压缩技术实现高效OCR任务。其创新的DeepEncoder架构融合SAM(窗口注意力)与CLIP(全局注...
DeepOCR是基于VILA代码库复现Deepseek-OCR的开源项目,核心聚焦于通过视觉-文本令牌压缩技术实现高效OCR任务。其创新的DeepEncoder架构融合SAM(窗口注意力)与CLIP(全局注...
Frappe Builder是一款基于Frappe生态打造的开源低代码可视化网站构建工具,它提供类Figma的直观编辑体验,支持响应式设计、Frappe CMS数据集成、自定义脚本与样式,搭配一键...
WithAnyone是由复旦大学与阶跃星辰联合开源的多身份AI合照生成项目,基于FLUX扩散模型架构构建,核心解决传统人像生成中的“复制粘贴”伪影问题。该项目通过大规模配对数据...
MOSS-Speech是由复旦大学邱锡鹏教授领衔的OpenMOSS团队(国内知名AI开源团队,曾推出MOSS大模型系列)研发的原生语音到语音(Speech-to-Speech, S2S)开源大模型,旨在打破...
AgentEvolver是阿里通义实验室开源的AI智能体自进化系统,通过自我提问、自我导航、自我归因三大核心机制,解决传统强化学习(RL)任务稀缺、探索低效、样本利用率低的痛点...
Parallax是一款开源的分布式模型服务框架,由AI技术公司Gradient开发并开源。其核心定位是“让用户在任何地方构建自己的AI集群”,解决传统LLM推理依赖高配置单节点或中心化...
无需美工、无需PS,扔一段文字就能出大片级海报! Skywork AI(瞬息AI)昨日悄然上线重磅新功能——Nano Banana Pro智能海报设计,瞬间引爆国内创作者圈。目前该功能已在Sk...
近日,谷歌宣布对其最新AI工具Gemini 3 Pro及图像生成工具Nano Banana Pro的免费用户权限进一步限制,以应对因用户需求激增导致的容量压力。此次调整自两大工具上线以来首次...
ROCK(Reinforcement Open Construction Kit)是由阿里巴巴淘天未来生活实验室与AI引擎团队联合开发的开源强化学习环境管理框架,基于客户端-服务器架构,提供沙箱环境的构...
ViMax是由香港大学开源多智能体视频生成框架,旨在解决当前AI视频生成“片段短、一致性差、缺乏叙事深度”的核心痛点。该工具集导演、编剧、制片人、视频生成器功能于一体,...