N46Whisper:云端AI日语字幕生成工具,高效转写与双语翻译一站式制作
description:N46Whisper是基于Google Colab与faster-whisper开发的开源日语视频字幕生成工具,专为乃木坂46等坂道系字幕组设计,支持高精度语音转写、AI双语翻译、批量处理...
description:N46Whisper是基于Google Colab与faster-whisper开发的开源日语视频字幕生成工具,专为乃木坂46等坂道系字幕组设计,支持高精度语音转写、AI双语翻译、批量处理...
Helios是北京大学YuanGroup开源的140亿参数实时长视频生成模型,无需传统抗漂移与加速技巧,即可在单张H100显卡实现19.5FPS端到端推理,支持文本/图像/视频驱动的分钟级高质...
BiRefNet是一款开源的高分辨率二值化图像分割框架,以双边参考机制为核心创新,专注解决高分辨率图像下分割精度低、显存占用大、推理速度慢等难题。该框架原生支持二值化图...
MODNet是一款发表于AAAI 2022的开源实时无Trimap人像抠图框架,由香港城市大学与商汤科技联合研发,仅需RGB图像输入即可实现高精度人像分割,无需手动标注、无需绿幕、无需...
RMBG-2.0是由BRIA AI独立研发的开源二值化图像分割模型,专注于图像背景移除领域,该模型核心定位是解决各类图像中前景与背景的精准分离问题,依托专业级训练数据集和优化的...
IOPaint是由Sanster开发的一款完全免费、开源可本地自托管的AI图像编辑工具,依托LaMa、Stable Diffusion Inpainting、PowerPaintV2、AnyText等前沿AI模型,提供图像擦除、...
zclaw是专为ESP32系列开发板打造的超轻量级开源AI个人助理,以≤888KiB全量固件体积为核心设计目标,纯C语言基于ESP-IDF框架开发,支持多LLM接入、GPIO硬件控制、定时任务、...
魔因漫创(Moyin Creator)是MemeCalculate团队开源的AI影视生产级工具,基于TypeScript与Electron构建,深度支持Seedance 2.0多模态能力,提供从剧本解析、角色管理、场景...
LiteLLM是由BerriAI开源的Python SDK与LLM代理服务器,可通过一套OpenAI兼容接口统一调用全球100+主流大语言模型,支持对话补全、向量嵌入、图像生成、音频处理等能力,内置...
Zerox是一款面向AI数据摄入场景的开源光学字符识别工具,核心定位是用极简方式把各类视觉形态的文档,转换成AI可直接处理的结构化Markdown格式。它由getomni-ai团队开发并维...