AutoPR:开源学术推广自动化框架,智能生成多平台论文推广内容
AutoPR 是一款面向科研学者的开源学术推广自动化框架,基于大语言模型构建,核心包含 PRAgent 智能体框架与 PRBench 基准数据集两大模块。该工具可自动将学术论文转化为适配...
AutoPR 是一款面向科研学者的开源学术推广自动化框架,基于大语言模型构建,核心包含 PRAgent 智能体框架与 PRBench 基准数据集两大模块。该工具可自动将学术论文转化为适配...
DeepAgent是由中国人民大学与小红书联合开发的开源通用推理代理框架,核心在于摒弃预定义工作流,实现端到端的自主思考、动态工具发现与动作执行。该框架内置脑启发式记忆架...
FlashVSR 是一款开源的基于扩散模型的实时视频超分辨率框架,主打高效性、可扩展性与高保真度,创新性提出三阶段蒸馏管道与局部约束稀疏注意力机制,解决传统扩散模型视频超...
Maya1-Text-to-Speech(以下简称Maya1)是一款基于深度学习构建的开源文本转语音(TTS)系统,主打高拟真语音生成、精细化情感控制与低延迟流式音频输出能力。该项目支持通...
Omnilingual ASR是由Meta(Facebook Research)开源的多语言语音识别系统,支持全球超过1600种语言(含数百种稀有语言),提供从300M到7B的多规格模型,支持零样本学习与无...
LiveAvatar是一款专注于实时、流式、无限长度交互式虚拟人视频生成的开源框架,由阿里巴巴、中科大、北邮及浙大联合开源。该框架突破了传统虚拟人视频生成“长度有限、延迟...
MotionEdit是由腾讯AI(西雅图)与加州大学洛杉矶分校联合开发的开源运动中心图像编辑项目,包含MotionEdit-Bench专用基准数据集与MotionNFT(Motion-guided Negative-awar...
SSVAE(Spectral-Structured VAE)是智谱AI针对视频生成场景优化的谱结构变分自编码器,聚焦于解决传统视频VAE潜在空间光谱特性与扩散模型训练需求不匹配的问题。该模型通过...
RealVideo 是由智谱 AI 主导开发并开源的实时流媒体对话视频生成系统,采用 Python 编程语言开发,依托 WebSocket 技术实现客户端与服务端的双向实时通信,融合大语言模型与...
SCAIL是智谱AI开源的一款面向生产级应用的角色动画生成框架,核心基于3D一致姿态表示的上下文学习技术,解决了传统角色动画生成中泛化能力弱、复杂场景运动不连贯的痛点。该...
GLM-TTS是由智谱AI团队开源的一款基于大语言模型(LLM)的高质量文本转语音(TTS)合成系统,其核心设计理念是将大语言模型的语义理解能力与语音合成技术相结合,突破传统T...
InkSight是谷歌研究院开源的一款离线手写内容转在线数字墨水的AI系统,基于视觉ViT与mT5编码器-解码器架构,融合阅读与写作先验知识构建多任务训练框架,可直接将照片中的手...
VibeVoice是微软开源的一款高性能语音AI研究框架,聚焦于解决传统文本转语音(TTS)系统在长文本处理、多说话人一致性及自然对话生成方面的技术痛点。该框架支持最长90分钟...
AI Toolkit是由Ostris团队开源的全能型扩散模型训练套件,其核心定位是为消费级硬件用户提供低成本、高易用性的图像与视频扩散模型训练解决方案。不同于专业级AI训练工具对...
Repo2Run是字节跳动开源的一款基于大语言模型(LLM)的构建代理系统,其核心目标是为各类代码仓库自动化搭建可执行的容器化运行环境。该工具以Docker为沙箱实现构建过程隔离...