PersonaPlex:英伟达开源的全双工实时语音对话模型,支持角色定制与自然打断交互
PersonaPlex是NVIDIA研究团队于2026年1月开源的全双工实时语音对语音对话模型,基于Kyutai的Moshi架构与Helium语言模型构建,核心解决传统语音助手“听一次、答一次”的僵化...
PersonaPlex是NVIDIA研究团队于2026年1月开源的全双工实时语音对语音对话模型,基于Kyutai的Moshi架构与Helium语言模型构建,核心解决传统语音助手“听一次、答一次”的僵化...
Claude-Ally-Health(WellAlly)是一款开源文件型个人健康信息管理系统,依托Claude Code CLI工具实现全流程健康数据管理。其整合了医疗报告智能识别、13个专科的多学科会诊...
详解 Qwen-Image-Edit 本地部署全流程:从环境配置、依赖安装到模型加载与Web界面启动,附多GPU显存优化技巧与常见问题解决方案,助你快速搭建高性能AI图像编辑系统。
Playwriter是一套围绕浏览器自动化与AI协同构建的工具集,核心由Chrome扩展(Playwriter MCP)和本地Node.js中继服务组成,主打通过Chrome DevTools Protocol (CDP) 让Play...
Baichuan-M3-235B是百川智能开源的2350亿参数级医疗增强大语言模型,主打原生低幻觉能力与端到端严肃问诊特性,该模型基于临床诊疗流程设计,能模拟医生思维主动追问关键信...
BabyVision是一款面向多模态大模型(MLLM)和图像生成模型的纯视觉推理能力开源评估基准,由UniPat-AI团队联合红杉中国xbench共同开发,隶属于xbench双轨评估体系中AGI Tra...
RAG-Anything 是由香港大学数据智能实验室(HKUDS)开源的一站式多模态检索增强生成(RAG)框架,基于 LightRAG 构建,突破传统文本类 RAG 系统的技术限制,可无缝处理 PDF...
AntAngelMed 是由浙江健康信息中心、蚂蚁医疗等联合研发的开源医疗大语言模型,是当前规模最大、性能最强的开源医疗语言模型之一。依托 Ling-flash-2.0 高效 MoE 架构,模型...
Qwen3-VL-Reranker 是通义千问团队开源的高性能多模态重排序(Reranker)模型,该模型是一款多模态配对打分模型,核心能力是接收「查询内容+候选内容」的多模态配对输入,并...
TwinFlow 是一款面向大模型「单步生成(One-step Generation)」的开源项目,核心目标是解决传统扩散模型在图像生成任务中存在的「生成步数多、推理速度慢、资源消耗高」等...
