Logics-Parsing:阿里巴巴开源的复杂文档端到端解析框架
Logics-Parsing 是阿里巴巴开源的一款基于视觉语言模型的文档解析框架,能够直接从文档图像输出结构化的 HTML 内容。该项目特别优化了对科学公式、化学结构和复杂表格的识别...
Logics-Parsing 是阿里巴巴开源的一款基于视觉语言模型的文档解析框架,能够直接从文档图像输出结构化的 HTML 内容。该项目特别优化了对科学公式、化学结构和复杂表格的识别...
LongLive 是由 NVLabs 联合 MIT、HKUST (GZ)、HKU、THU 等机构开发的开源实时交互式AI长视频生成框架,该框架基于帧级自回归设计,整合 KV-recache、流式长调优、短窗口注意...
FireRedChat是一个完全自托管的全双工语音交互解决方案,旨在帮助开发者构建实时语音AI代理。该系统整合了强大的TTS、ASR、pVAD和EoT功能,使开发者能够创建可定制、注重隐...
Ming-UniAudio是一个创新的开源框架,旨在统一语音理解、生成和编辑任务。通过基于VAE框架和因果Transformer架构的统一连续语音tokenizer(MingTok-Audio),它能够有效整合...
Code2Video是由新加坡国立大学Show Lab开发的开源教育视频生成框架,核心以代码驱动实现教育类视频的自动化生成,适用于数学(欧拉公式、傅里叶级数等)、计算机科学(神经...
openpilot 是由 Comma AI 开发的开源自动驾驶平台,旨在为 300 多种支持车辆提供高级驾驶辅助功能。该项目通过软件升级方式,将普通车辆转变为智能驾驶车辆,支持自适应巡航...
AI_NovelGenerator 是一款基于大语言模型(LLM)的开源长篇小说创作辅助工具,旨在帮助作者高效生成情节连贯、设定统一的小说内容。该工具集成了小说设定工坊、智能章节生成...
EchoCare 是一个面向超声临床应用的完全开源基础模型,基于大规模无标注超声影像数据集 EchoAtlas 训练而成。该数据集覆盖全球 5 大洲 23 个临床中心、38 种不同超声设备,...
RoboBrain-X0 是一个突破性的跨实体机器人智能框架,旨在克服单机器人系统在异构实体迁移中的局限性。它通过统一的动作词汇表和先进的动作令牌化技术,实现了在不同机器人平...
Open WebUI 是一个开源的自托管 AI 平台,提供了丰富的功能和灵活的扩展性。它支持多种 LLM 运行器,包括 Ollama 和 OpenAI 兼容 API,内置 RAG 推理引擎,可用于构建自定义...
browser-use 是一个创新的开源项目,它将大型语言模型 (LLM) 与浏览器自动化技术相结合,实现了通过自然语言指令控制浏览器的功能。该项目使用 Playwright 作为浏览器自动化...
Deep Lake 是一款专为 AI 设计的开源数据库,基于优化的存储格式,适用于深度学习应用。它支持存储和搜索多模态数据及向量,能简化 LLM 应用部署与深度学习模型训练的数据集...
DeepSeek-V3.2-Exp是DeepSeek-AI推出的实验性大模型版本,作为下一代架构的中间迭代产物,其核心基于DeepSeek-V3.1-Terminus升级,创新引入DeepSeek Sparse Attention(DSA...
Lynx是字节跳动Intelligent Creation团队开发的开源高保真个性化视频生成模型,基于Diffusion Transformer(DiT)架构,通过ID-adapter(身份保留)和Ref-adapter(空间细节...
OpenPPT是必优科技基于ChatPPT核心服务开源的Web端在线AI PPT生成创作工具,覆盖PPT从“新建/导入”“编辑”“美化排版”“播放”“演讲”到“导出下载”的全流程服务。其支...