MioCodec：Aratako开源的高保真神经音频编解码器，高效支撑口语建模与语音转换

原创发布日期：2026-02-24

112

一、MioCodec是什么

MioCodec是由Chihiro Arata开发的一款高保真神经音频编解码器，核心定位为高效口语建模的音频处理基础工具，基于MIT开源许可证进行开源，任何人可免费获取、使用并进行二次开发。该项目以解决传统音频编解码器在低比特率下音质损耗大、推理速度慢、部署门槛高的问题为核心目标，通过融合先进的SSL编码器、离散化特征编码与轻量化解码架构，实现了低比特率、高采样率、快推理速度的音频编解码能力，同时创新性地将语音特征拆分为内容令牌与全局嵌入，天然支持语音转换功能。

MioCodec的开发参考了kanade-tokenizer、AliasingFreeNeuralAudioSynthesis、XCodec2等经典音频处理项目的技术设计，在其基础上进行了针对性优化，例如为44.1kHz和24kHz版本设计了基于iSTFT的集成式解码器，摆脱了对外部声码器的依赖，大幅降低了部署和使用成本。该项目提供多款自研模型，同时向下兼容kanade系列经典音频模型，所有模型均已在Hugging Face平台发布，可直接通过代码加载调用，支持GPU和CPU双环境推理，兼顾工业级部署的高效性和个人开发的便捷性，是目前口语语言建模、音频压缩、语音转换等领域的优秀轻量化开源工具。

二、功能特色

MioCodec作为新一代神经音频编解码器，相较于传统音频编解码工具和其他开源神经音频编解码器，具备高保真、轻量化、多版本、易部署、强拓展五大核心特色，同时拥有语音转换的原生功能，具体特色如下：

高保真低比特率，兼顾音质与压缩效率
MioCodec所有自研模型的比特率均低至341bps，远低于传统音频编解码器的比特率标准，但通过WavLM-base+SSL编码器和优化的特征编码策略，在低比特率下仍能保持高保真音质，支持44.1kHz高采样率的音频编解码，还原音频的细节特征，解决了传统编解码器“压缩率与音质不可兼得”的痛点，即使是24kHz的轻量版本，也能满足日常口语建模、语音交互的音质需求。
多版本模型适配，满足不同场景需求
项目提供3款自研核心模型，分别针对高音质需求、轻量化部署、旧版兼容设计，同时兼容3款kanade系列模型，覆盖24kHz/44.1kHz两种采样率、12.5Hz/25Hz两种令牌率，开发者可根据实际场景的硬件资源、音质要求、部署环境选择对应的模型，例如高端显卡环境可选择44.1kHz-v2版本追求高音质，边缘设备、低配服务器可选择24kHz版本实现轻量化部署。
集成式解码器设计，摆脱外部声码器依赖
其推荐版本（MioCodec-25Hz-44.1kHz-v2、MioCodec-25Hz-24kHz）采用iSTFTHead集成式波解码器，将解码功能内置到模型中，无需额外部署和调用外部声码器，大幅简化了推理流程，提升了推理速度，同时降低了环境配置的复杂度，即使是音频开发新手也能快速上手。
GPU/CPU双环境支持，部署灵活门槛低
MioCodec完美支持GPU和CPU两种推理环境，GPU环境下可安装FlashAttention实现极致推理速度，CPU环境下自动回退到PyTorch SDPA，无需额外修改代码，仅需通过.cuda()/.cpu()方法切换模型和张量的运行环境。同时项目支持多种安装方式，可直接通过uv/pip从Git安装，也可克隆仓库本地可编辑部署，无需复杂的编译流程，适配Windows、Linux、Mac等主流操作系统。
原生支持语音转换，特征分离设计更灵活
模型将语音音频编码为内容令牌和全局嵌入两种独立特征：内容令牌主要表征语音的语义内容（即“说的是什么”），全局嵌入主要表征说话人特征、声学环境、麦克风特性等（即“谁在说、在什么环境说”）。通过融合不同音频的内容令牌和全局嵌入，可轻松实现语音转换功能，项目还封装了voice_conversion便捷函数，无需手动处理特征融合，一行代码即可实现语音转换，大幅降低了二次开发成本。
低耦合架构设计，拓展性强
项目的代码仓库采用模块化架构，核心推理代码、模型配置、声码器辅助工具相互解耦，src/miocodec/目录中包含独立的声码器辅助工具，即使是需要使用外部声码器的旧版模型，也能通过工具快速调用MioVocoder，同时开发者可基于现有架构轻松拓展新的模型版本、适配新的声码器，或与其他语音处理工具（如TTS、ASR）进行集成。

三、技术细节

MioCodec的技术核心围绕“编码-量化-解码” 经典神经音频编解码器架构展开，在编码器、解码器、特征设计等方面进行了针对性优化，同时制定了统一的模型参数标准，所有模型的技术设计均围绕“高效口语建模”展开，以下从模型参数体系、核心技术组件、特征编码设计、仓库架构四个方面详细解析其技术细节：

（一）模型参数体系

MioCodec提供3款自研模型和3款兼容的kanade系列模型，所有模型均采用统一的SSL编码器和词汇量标准，仅在令牌率、采样率、解码器、参数规模等方面存在差异，核心模型参数如下表所示：

模型名称	令牌率	词汇量	比特率	采样率	核心技术组件	参数规模	核心定位
MioCodec-25Hz-44.1kHz-v2	25Hz	12800	341bps	44.1kHz	WavLM-base+、iSTFTHead	133M	高音质推荐版
MioCodec-25Hz-24kHz	25Hz	12800	341bps	24kHz	WavLM-base+、iSTFTHead	132M	轻量化部署版
MioCodec-25Hz-44.1kHz	25Hz	12800	341bps	44.1kHz	WavLM-base+、MioVocoder	118M（不含声码器）	旧版兼容高音质版
kanade-12.5hz	12.5Hz	12800	171bps	24kHz	WavLM-base+、Vocos 24kHz	120M（不含声码器）	低比特率基础版
kanade-25hz	25Hz	12800	341bps	24kHz	WavLM-base+、Vocos 24kHz	118M（不含声码器）	经典25Hz基础版
kanade-25hz-clean	25Hz	12800	341bps	24kHz	WavLM-base+、HiFT 24kHz	142M（不含声码器）	高保真清洁版

从参数体系可看出，MioCodec的自研模型均采用25Hz令牌率，这一设计是为了匹配口语语言建模的特征提取速度，确保编解码的实时性；12800的固定词汇量则保证了特征离散化的精度，在低比特率下仍能保留足够的音频特征信息。

（二）核心技术组件

SSL编码器：WavLM-base+
所有模型均采用WavLM-base+ 作为自监督学习（SSL）编码器，这是一款针对语音处理优化的预训练编码器，能够从原始音频中提取高质量的声学特征，相较于传统的Mel频谱特征提取方法，WavLM-base+能更好地捕捉语音的语义和声学细节，为后续的特征量化和编码奠定基础，同时其轻量级的参数规模也保证了推理速度，适配MioCodec的轻量化定位。
解码器：iSTFTHead/外部声码器
MioCodec的技术创新核心在于解码器设计，推荐版本采用iSTFTHead 集成式波解码器，基于逆短时傅里叶变换（iSTFT）实现波形合成，将解码功能内置到模型中，无需外部声码器，大幅简化了推理流程；而旧版模型则采用MioVocoder 外部声码器，兼顾高音质的同时保持对旧版代码的兼容；兼容的kanade系列模型则分别适配Vocos 24kHz和HiFT 24kHz声码器，满足不同的解码需求。
量化器：离散化特征编码
模型通过量化器将WavLM-base+提取的连续声学特征转换为离散的内容令牌，词汇量固定为12800，量化后的特征体积大幅压缩，实现了341bps的低比特率，同时离散化的特征更适合口语语言建模的后续处理，可直接与大语言模型、语音合成模型进行集成。

（三）特征编码设计

MioCodec最具特色的技术设计为语音特征的分离式编码，将原始语音音频编码为两种相互独立的特征：

内容令牌（content_token_indices）：核心表征语音的语义内容特征，即音频中“说话的内容”，与说话人、声学环境无关，仅保留语音的语义和发音信息，是实现语音编解码和语音转换的核心特征之一。
全局嵌入（global_embedding）：核心表征语音的非内容特征，包括说话人的声线、音色、语速，以及录制时的声学环境、麦克风特性、背景噪音等，是区分不同说话人、不同录制环境的关键特征。

这种分离式设计让MioCodec天然支持语音转换功能，只需将源音频的内容令牌与参考音频的全局嵌入进行融合，即可实现“用源音频的内容，以参考音频的说话人声线和环境进行发声”的效果，且特征融合的过程由模型内部优化，无需开发者手动设计特征融合策略。

（四）仓库架构

MioCodec的GitHub仓库采用清晰的模块化架构，所有文件和目录均围绕“模型推理、配置、部署”展开，无冗余代码，方便开发者快速定位核心功能，核心仓库结构如下：

**src/miocodec/**：项目的核心推理代码目录，包含模型定义、编解码模块、声码器辅助工具、音频加载工具等，其中还包含pupu/子目录，专门用于Pupu-Vocoder的推理调用，同时内置了默认的配置资产，无需额外下载配置文件。
**config/model/**：模型配置文件目录，核心配置文件为25hz_miocodec.yaml，包含所有25Hz令牌率模型的超参数、编码器/解码器配置、推理参数等，开发者可通过修改该配置文件适配自定义的推理需求。
**licenses/**：许可证相关目录，包含项目依赖的第三方库、工具的许可证信息，确保开源使用的合规性。
基础配置文件：包含.gitignore（Git忽略规则）、.python-version（Python版本指定）、pyproject.toml（项目包配置）、uv.lock（环境依赖锁定）等，确保项目的环境一致性和部署可复现性。
说明文档：包含README.md（项目说明文档）、LICENSE（MIT开源许可证），详细介绍项目的安装、使用、技术参考等信息。

四、应用场景

MioCodec作为一款高效、轻量化、高保真的神经音频编解码器，同时具备语音转换核心功能，其技术特性决定了它可广泛应用于口语语言建模、语音处理、智能语音交互等领域，无论是工业级的大规模部署，还是个人开发者的二次开发，都能适配相应的场景需求，核心应用场景如下：

口语语言建模的基础音频处理
这是MioCodec的核心应用场景，在大语言模型与语音结合的口语语言建模任务中，需要对原始语音音频进行高效的特征提取和压缩，MioCodec能将高采样率的语音音频转换为低比特率的离散内容令牌，既保留了语音的语义特征，又大幅降低了特征数据的体积，可直接作为口语语言模型的输入，提升模型的训练和推理效率，同时44.1kHz的高采样率能保证特征的精度，适配高端口语建模的需求。
语音合成（TTS）的音频编解码优化
在语音合成任务中，传统TTS模型的波形合成环节往往依赖大参数量的声码器，推理速度慢、部署门槛高。MioCodec可作为TTS模型的音频编解码模块，其集成式iSTFTHead解码器能实现快速的波形合成，同时低比特率的特征编码能大幅降低TTS模型的输入数据量，提升合成速度；此外，MioCodec的语音转换功能还能与TTS结合，实现“一键更换合成语音的声线”，提升TTS模型的灵活性。
语音转换系统的开发
MioCodec原生支持语音转换功能，且封装了便捷的voice_conversion函数，开发者无需从零设计特征提取和融合策略，只需加载模型、传入源音频和参考音频，即可实现语音转换，可快速开发轻量级的语音转换系统，适用于播客制作、有声书配音、语音特效处理等场景，同时其高保真的音质能保证转换后的语音自然、无失真。
音频压缩与存储
在音频数据的存储和传输场景中，传统的音频压缩格式（如MP3、AAC）在低压缩率下音质损耗大，而MioCodec能在341bps的超低比特率下保持高保真音质，且支持44.1kHz高采样率，可用于语音数据的高效压缩与存储，例如智能音箱的语音交互记录、客服通话录音、语音数据库建设等场景，能大幅降低存储成本和网络传输带宽。
边缘设备的智能语音交互
MioCodec的24kHz轻量版本（132M参数）具备轻量化、快推理的特点，可部署在边缘设备（如智能音箱、嵌入式设备、低端服务器）上，实现本地的语音音频编解码，满足边缘设备的智能语音交互需求，例如本地语音唤醒、本地语音指令识别的前期音频处理，无需将音频数据上传至云端，既提升了交互的实时性，又保证了数据的隐私性。
语音处理工具的二次开发与集成
MioCodec采用MIT开源许可证，且仓库架构低耦合、模块化，开发者可将其核心编解码功能、语音转换功能集成到自研的语音处理工具中，例如音频编辑软件、语音助手、直播语音特效工具等，丰富工具的音频处理能力，同时其支持GPU/CPU双环境推理，能适配不同工具的部署环境。

MioCodec：Aratako开源的高保真神经音频编解码器，高效支撑口语建模与语音转换

五、使用方法

MioCodec的使用流程分为环境准备与安装、核心功能使用两部分，其中核心功能包括音频编解码推理和语音转换，同时支持GPU和CPU两种推理环境，操作步骤简单，代码可读性强，以下详细介绍具体使用方法，所有操作均基于Python环境，建议使用Python3.8及以上版本。

（一）环境准备与安装

前置准备
首先需要创建并激活独立的Python虚拟环境，避免与其他项目的依赖冲突，推荐使用conda、venv等虚拟环境工具，例如使用venv创建虚拟环境：

  # 创建虚拟环境
  python -m venv miocodec-env
  # 激活虚拟环境（Linux/Mac）
  source miocodec-env/bin/activate
  # 激活虚拟环境（Windows）
  miocodec-env\Scripts\activate

同时建议在系统中安装`ninja`工具，若后续需要安装FlashAttention，可提升编译速度，Linux/Mac可通过包管理器安装，Windows可通过Chocolatey安装。

项目安装
MioCodec提供两种安装方式，可根据需求选择直接从Git安装或克隆仓库本地可编辑安装，两种方式均支持uv和pip包管理工具，其中uv是推荐的包管理工具，速度更快、依赖管理更精准。

方式一：直接从Git安装（快速使用，无需修改代码）

   # 使用uv安装
   uv add git+https://github.com/Aratako/MioCodec
   # 或使用pip安装
   pip install git+https://github.com/Aratako/MioCodec

- 方式二：克隆仓库本地可编辑安装（适合二次开发，修改代码后实时生效）

   # 克隆仓库
   git clone https://github.com/Aratako/MioCodec
   # 进入仓库目录
   cd MioCodec
   # 使用uv同步依赖
   uv sync
   # 或使用pip可编辑安装
   pip install -e .

可选：安装FlashAttention
为了实现极致的推理速度，还原项目官方的部署效果，推荐安装FlashAttention，这是一款优化的注意力机制库，能大幅提升模型的推理效率。若FlashAttention不可用，模型会自动回退到PyTorch SDPA，但其行为和音质不做保证。需要注意的是，即使安装了FlashAttention，CPU推理时也会自动回退到PyTorch SDPA，FlashAttention仅对GPU推理生效。

  # 使用uv安装FlashAttention
  uv pip install flash-attn --no-build-isolation
  # 或使用pip安装
  pip install flash-attn --no-build-isolation

（二）核心功能使用

MioCodec的核心功能分为音频编解码推理和语音转换，其中音频编解码推理又分为推荐版本（集成iSTFTHead解码器） 和旧版（外部MioVocoder声码器），两种版本的调用方式略有差异，以下分别介绍，代码示例均以GPU推理为例，CPU推理仅需添加.cpu()方法即可。

1. 音频编解码推理（推荐版本：MioCodec-25Hz-44.1kHz-v2/24kHz）

推荐版本采用集成式iSTFTHead解码器，无需外部声码器，是项目官方推荐的使用方式，支持44.1kHz和24kHz两种采样率，只需修改模型加载的名称即可切换，核心步骤为加载模型→加载音频→编码→解码→保存音频。

# 导入核心库
from miocodec import MioCodecModel, load_audio
import soundfile as sf

# 加载模型：44.1kHz版本使用"Aratako/MioCodec-25Hz-44.1kHz-v2"，24kHz版本使用"Aratako/MioCodec-25Hz-24kHz"
model = MioCodecModel.from_pretrained("Aratako/MioCodec-25Hz-44.1kHz-v2")
# 将模型设置为评估模式并移至GPU（CPU推理改为model.eval().cpu()）
model = model.eval().cuda()

# 加载音频：自动匹配模型的采样率，无需手动转换
waveform = load_audio("path/to/audio.wav", sample_rate=model.config.sample_rate).cuda() # CPU推理改为.cpu()

# 编码：将音频转换为内容令牌和全局嵌入
features = model.encode(waveform)

# 解码：直接从特征合成波形，无需外部声码器
resynth = model.decode(
  content_token_indices=features.content_token_indices,
  global_embedding=features.global_embedding,
)

# 保存解码后的音频
sf.write("resynth.wav", resynth.cpu().numpy(), model.config.sample_rate)

2. 音频编解码推理（旧版：MioCodec-25Hz-44.1kHz）

旧版模型需要使用外部MioVocoder声码器进行波形合成，调用时需使用MioCodec类而非MioCodecModel类，解码步骤无需手动传入特征，直接调用decode方法即可，核心步骤与推荐版本类似：

# 导入核心库
from miocodec import MioCodec, load_audio
import soundfile as sf

# 加载旧版模型
model = MioCodec.from_pretrained("Aratako/MioCodec-25Hz-44.1kHz")
# 模型评估模式+GPU（CPU推理改为.eval().cpu()）
model = model.eval().cuda()

# 加载音频
waveform = load_audio("path/to/audio.wav", sample_rate=model.config.sample_rate).cuda() # CPU推理改为.cpu()

# 编码
features = model.encode(waveform)

# 解码：自动调用外部MioVocoder声码器
resynth = model.decode(features=features)

# 保存音频
sf.write("resynth.wav", resynth.cpu().numpy(), samplerate=model.config.sample_rate)

3. 语音转换

MioCodec的语音转换功能基于分离式的特征编码设计，核心是融合源音频的内容令牌和参考音频的全局嵌入，项目封装了voice_conversion便捷函数，只需传入源音频和参考音频，即可一键实现语音转换，无需手动处理特征，核心代码如下：

# 导入核心库
from miocodec import MioCodecModel, load_audio
import soundfile as sf

# 加载模型（推荐使用44.1kHz-v2版本，音质更好）
model = MioCodecModel.from_pretrained("Aratako/MioCodec-25Hz-44.1kHz-v2")
model = model.eval().cuda() # CPU推理改为.eval().cpu()

# 加载源音频（提供内容）和参考音频（提供说话人特征）
source = load_audio("path/to/source.wav", sample_rate=model.config.sample_rate).cuda() # CPU推理改为.cpu()
reference = load_audio("path/to/reference.wav", sample_rate=model.config.sample_rate).cuda() # CPU推理改为.cpu()

# 执行语音转换
vc_wave = model.voice_conversion(source, reference)

# 保存转换后的音频
sf.write("vc.wav", vc_wave.cpu().numpy(), samplerate=model.config.sample_rate)

（三）CPU推理适配

所有GPU推理的代码均只需做两处修改，即可适配CPU推理，无需修改其他逻辑，操作简单：

模型加载后，将.cuda()改为.cpu()，例如model = model.eval().cpu()；
音频加载后，将.cuda()改为.cpu()，例如waveform = load_audio(...).cpu()。

六、常见问题解答

Q1：安装FlashAttention时出现编译错误，提示“ninja: error: build stopped: subcommand failed”怎么办？

A1：该错误主要是因为系统中未安装ninja工具，或ninja工具版本过低，FlashAttention的编译依赖ninja来提升速度，未安装时会出现编译失败。解决方法：在系统中安装ninja工具，Linux可通过apt install ninja-build安装，Mac可通过brew install ninja安装，Windows可通过choco install ninja安装，安装完成后重新执行FlashAttention的安装命令即可。

Q2：加载模型时出现“OSError: Can't load model from Hugging Face”错误，如何解决？

A2：该错误主要有两种原因：一是网络问题，无法访问Hugging Face平台，导致模型权重无法下载；二是模型名称输入错误，例如少写了“v2”、大小写错误。解决方法：首先检查模型名称是否与官方一致，例如44.1kHz推荐版的名称为“Aratako/MioCodec-25Hz-44.1kHz-v2”，无拼写错误；若为网络问题，可配置Hugging Face的国内镜像源，或手动从Hugging Face下载模型权重，放置到本地缓存目录。

Q3：CPU推理时，模型的推理速度非常慢，是否有优化方法？

A3：MioCodec的CPU推理会自动回退到PyTorch SDPA，且FlashAttention对CPU推理无效，因此推理速度会比GPU慢很多，这是正常现象。优化方法：一是尽量使用24kHz的轻量版本（132M参数），减少模型的计算量；二是对输入的音频进行分块处理，避免一次性处理过长的音频；三是使用CPU的多线程优化，设置OMP_NUM_THREADS环境变量，利用多核心提升推理速度，例如Linux/Mac系统中执行export OMP_NUM_THREADS=8（根据CPU核心数调整）。

Q4：使用语音转换功能时，转换后的音频出现失真、杂音，是什么原因？

A4：语音转换后的音频失真主要有三种原因：一是源音频或参考音频的质量过低，例如存在大量背景噪音、采样率不一致；二是模型选择不当，若使用24kHz轻量版本，音质会比44.1kHz-v2版本略低；三是音频的时长过短，参考音频的全局嵌入提取不充分。解决方法：首先确保源音频和参考音频为无杂音、高保真的WAV格式，且采样率与模型一致；其次优先使用MioCodec-25Hz-44.1kHz-v2版本进行语音转换；最后保证参考音频的时长不少于3秒，让模型能充分提取说话人特征。

Q5：安装MioCodec时，出现“Dependency conflict”依赖冲突错误，如何解决？

A5：该错误是因为当前Python环境中已安装的部分库与MioCodec的依赖库版本冲突，解决方法：严格按照官方要求，创建独立的Python虚拟环境进行安装和使用，避免与其他项目的依赖混合，虚拟环境会隔离所有依赖，从根本上解决依赖冲突问题，推荐使用venv或conda创建虚拟环境。

Q6：解码后的音频与原始音频相比，存在轻微的延迟，如何优化？

A6：音频编解码的轻微延迟主要出现在特征编码和解码的环节，优化方法：一是在GPU环境下安装FlashAttention，提升模型的推理速度，这是最有效的优化方式；二是减少模型的推理批次，一次性处理单条音频，避免批次过大导致的计算延迟；三是使用24kHz的轻量版本，其解码器的计算量更小，推理速度更快，延迟更低。

Q7：是否支持除WAV外的其他音频格式，如MP3、AAC？

A7：MioCodec的load_audio工具默认仅支持WAV格式的音频，若需要处理MP3、AAC等其他格式，需先将音频转换为WAV格式，可使用librosa、pydub等音频处理库进行格式转换，例如使用pydub将MP3转换为WAV：

from pydub import AudioSegment
AudioSegment.from_mp3("path/to/audio.mp3").export("path/to/audio.wav", format="wav")

Q8：在Windows系统中安装MioCodec时，出现“Microsoft Visual C++ 14.0 or greater is required”错误，怎么办？

A8：该错误是因为Windows系统中缺少C++编译环境，MioCodec的部分依赖库需要C++编译环境才能安装。解决方法：下载并安装Microsoft Visual C++ Build Tools 2019，安装时需勾选“C++生成工具”和“Windows 10 SDK”，安装完成后重启电脑，重新执行MioCodec的安装命令即可。

Q9：模型的encode方法输出的features包含哪些内容，能否单独提取内容令牌或全局嵌入？

A9：model.encode(waveform)输出的features是一个自定义的特征对象，核心包含content_token_indices（内容令牌）和global_embedding（全局嵌入）两个属性，可单独提取和使用，例如content_tokens = features.content_token_indices、global_emb = features.global_embedding，提取后的特征为PyTorch张量，可直接进行保存、修改或二次处理。

Q10：能否将MioCodec与其他语音处理模型（如TTS、ASR）进行集成，有什么注意事项？

A10：可以，MioCodec的低耦合架构设计使其可与其他语音处理模型轻松集成，核心注意事项：一是保证特征的维度匹配，MioCodec输出的内容令牌维度为[batch, seq_len]，全局嵌入维度为[batch, emb_dim]，需与其他模型的输入维度匹配；二是保证采样率一致，集成时需将其他模型的音频采样率转换为MioCodec模型的采样率（44.1kHz或24kHz）；三是在GPU环境中集成时，确保所有模型均移至同一GPU设备，避免设备不匹配错误。

七、相关链接

MioCodec官方GitHub仓库：https://github.com/Aratako/MioCodec
MioCodec Hugging Face模型仓库：

八、总结

MioCodec是由Chihiro Arata开发的一款面向高效口语建模的开源高保真神经音频编解码器，基于MIT许可证开源，核心托管在GitHub和Hugging Face平台，其开发参考了kanade-tokenizer、XCodec2等经典音频处理项目的技术设计，在编码器、解码器和特征编码方面进行了针对性优化，提供3款自研核心模型和3款兼容的kanade系列模型，覆盖44.1kHz/24kHz采样率、25Hz/12.5Hz令牌率，所有模型均采用WavLM-base+SSL编码器和12800固定词汇量，在341bps的超低比特率下仍能保持高保真音质。该项目的核心技术创新在于集成式iSTFTHead解码器设计和分离式的语音特征编码，前者让推荐版本摆脱了对外部声码器的依赖，简化了推理流程、提升了推理速度，后者将语音特征拆分为内容令牌和全局嵌入，让模型天然支持语音转换功能，并封装了便捷的调用函数，降低了二次开发成本。MioCodec支持GPU/CPU双环境推理，GPU环境下可安装FlashAttention实现极致推理速度，CPU环境下自动回退到PyTorch SDPA，部署方式灵活，可直接从Git安装或克隆仓库本地可编辑安装，仅需简单的环境配置即可上手。其核心功能包括音频编解码推理和语音转换，广泛适用于口语语言建模、语音合成、音频压缩、边缘设备智能语音交互、语音转换系统开发等场景，既满足工业级大规模部署的高效性需求，又适配个人开发者的二次开发需求，是一款轻量化、高保真、易部署、强拓展的神经音频编解码工具，为语音处理、口语语言建模领域提供了高效的开源解决方案。