SCAIL:智谱AI开源的工作室级角色动画生成框架
SCAIL是智谱AI开源的一款面向生产级应用的角色动画生成框架,核心基于3D一致姿态表示的上下文学习技术,解决了传统角色动画生成中泛化能力弱、复杂场景运动不连贯的痛点。该...
SCAIL是智谱AI开源的一款面向生产级应用的角色动画生成框架,核心基于3D一致姿态表示的上下文学习技术,解决了传统角色动画生成中泛化能力弱、复杂场景运动不连贯的痛点。该...
GLM-TTS是由智谱AI团队开源的一款基于大语言模型(LLM)的高质量文本转语音(TTS)合成系统,其核心设计理念是将大语言模型的语义理解能力与语音合成技术相结合,突破传统T...
InkSight是谷歌研究院开源的一款离线手写内容转在线数字墨水的AI系统,基于视觉ViT与mT5编码器-解码器架构,融合阅读与写作先验知识构建多任务训练框架,可直接将照片中的手...
VibeVoice是微软开源的一款高性能语音AI研究框架,聚焦于解决传统文本转语音(TTS)系统在长文本处理、多说话人一致性及自然对话生成方面的技术痛点。该框架支持最长90分钟...
AI Toolkit是由Ostris团队开源的全能型扩散模型训练套件,其核心定位是为消费级硬件用户提供低成本、高易用性的图像与视频扩散模型训练解决方案。不同于专业级AI训练工具对...
Repo2Run是字节跳动开源的一款基于大语言模型(LLM)的构建代理系统,其核心目标是为各类代码仓库自动化搭建可执行的容器化运行环境。该工具以Docker为沙箱实现构建过程隔离...
MemOS 是由 MemTensor 团队开发的开源 AI 智能体记忆操作系统,旨在解决传统 AI 智能体存在的 “记忆断层”“人格漂移” 和 “上下文召回能力弱” 等核心痛点。该框架通过模...
MemMachine是一款面向AI智能体的开源通用内存层工具,支持工作(短期)、持久(长期)、个性化(档案)三类记忆,其内存层可跨多个会话、代理及大语言模型持久化,将情景记...
ValueCell是一个基于开源协作模式构建的多智能体(Multi-Agent)金融应用工具,,核心定位为去中心化金融代理协作生态,旨在为用户提供股票/加密货币的选股、研究、跟踪及智...
DeepOCR是基于VILA代码库复现Deepseek-OCR的开源项目,核心聚焦于通过视觉-文本令牌压缩技术实现高效OCR任务。其创新的DeepEncoder架构融合SAM(窗口注意力)与CLIP(全局注...
Frappe Builder是一款基于Frappe生态打造的开源低代码可视化网站构建工具,它提供类Figma的直观编辑体验,支持响应式设计、Frappe CMS数据集成、自定义脚本与样式,搭配一键...
ROCK(Reinforcement Open Construction Kit)是由阿里巴巴淘天未来生活实验室与AI引擎团队联合开发的开源强化学习环境管理框架,基于客户端-服务器架构,提供沙箱环境的构...
Local Dream是一个专注于Android平台的开源AI图像生成项目,核心目标是让用户在移动设备上无需依赖云端算力,即可本地运行Stable Diffusion模型完成各类图像创作。区别于需...
Fara-7B是微软开源的首款专注于计算机使用的代理型轻量语言模型(SLM),仅70亿参数却实现了同类领先的Web任务自动化能力。该模型基于Qwen2.5-VL-7B训练,通过视觉感知网页...
EasyVoice是一款免费开源的智能文本转语音解决方案,专注于解决超长文本转换、多角色配音等核心需求,支持10万字以上小说一键转为有声书,具备流式传输、自动字幕生成、多语...