全新底模 V3.0
全新一代底模重新学习声纹空间结构,目标音色特征被极致还原。在 600+ 模型库盲测中相似度均值从 56% 跃升到 76%。
咬字优化算法
专门为中文声调 / 英文连读重写前处理流水线,告别 8.x 时代含糊的辅音。咬字清晰度同步提升 40%。
破哑音抑制技术
动态识别并压制高频毛刺,引入动态谐波平滑器,彻底消除"破音"与"哑音"边界感,让高音平稳过渡。
AI 一键翻唱
上传任意歌曲,智能转换音色,极速推理生成专业级翻唱,一键出歌。
SVC 模型训练 · 推理
端到端歌声转换模型,自定义数据集训练,高效推理,高保真音质。
改词翻唱引擎
上传歌曲→编辑歌词→G2P 音素转换→选择模型→一键生成。
MSST 分离预设系统
人声 / 伴奏 / 乐器分离预设,一键调用 AI 分离算法。
无需手动选中配置
人声分离
MSST 一键分离人声与伴奏。
去混响
UVR-De-Echo 干声清洁。
变调适配
±12 半音智能匹配目标音域。
音色转换
底模 V3.0 + 咬字优化双引擎。
智能混音
AI 自动 EQ / 压缩 / 声场。
混响优化
自适应房间大小,母带级输出。
热门 IP 全收录,想找的模型这里都有
覆盖二次元、影视、游戏、真人声线、网红配音与陪玩专用变声 —— 48K 高保真 / 全音域 / 低电流 / 低延迟,所听即所得。
全站 600+ 款模型
全角色
全角色
全角色
系列
专属模型
星穹铁道
孙燕姿
定制服务
17+ 全新增功能模块
MXGF 将 UI 重构为模块化架构,31 个独立文件支撑 17 个全新界面。
智能缓存命中:同一首歌仅需分离一次,之后直接一键转换,告别重复等待。
一键 AI 翻唱
上传→分离→去混响→转换→混音,全自动六步,批量翻唱支持。
音乐源分离系统
集成 MSST + UVR5 双引擎,预设流程管理,合奏模式,模型下载。
So-VITS-SVC 4.1
完整歌声转换管线,支持推理/训练/ONNX 导出/批量转换。
增强音色转换
模型搜索、多选交叉批量、大模型自动拦截检测、持久化上传。
历史记录中心
分离/翻唱/转换/SVC 四大记录,JSON 持久化,统计可视化。
一键智能训练
上传长音频→自动切片→拼音化→参数匹配→全自动训练。
批量训练系统
扫描文件夹批量切片、中文转拼音、自动合并短片段。
模型管理中心
搜索排序、元数据编辑、CKPT 处理、ONNX 导出、JSON 持久化。
AI 自动混音
6 种风格预设×5 种人声类型,pedalboard 专业处理链。
音频工具箱
变调/混音/混响/格式转换/响度归一化,一站式处理。
改词翻唱引擎
上传歌曲→编辑歌词→G2P 音素转换→选择模型→一键生成。
SoulX-Singer SVS
MIDI 歌声合成,内置编辑器、SVC 推理、输入预设管理。
歌曲解锁工具
支持 ncm/qmc/kgm/xm/kwm 等主流加密格式解码。
内嵌模型工坊
mxgf.cc 模型商店直通,缓存更新机制,优雅离线 fallback。
全局任务栏
粘性悬浮、实时进度、完成动画、30 秒渐消、6 种任务图标。
TTS · ONNX · 更多
OpenAI TTS 入口、独立 ONNX 导出界面,持续扩展中。
全平台 GPU 深度加速
v9.0 重写 CUDA 调度层,在 NVIDIA 20/30/40/50 全系与 AMD 全系上拿到显著加速。
10 / 20 / 30 / 40 系
CPU 模式 · 低配可用
架构设计全面进化,远超原始框架
不是简单堆砌功能,而是从底层架构开始重新设计——模块化、可降级、有缓存、能取消。
全局共享层
492 KB 的 shared.py 作为核心中枢,初始化守卫防止重复加载,全局 Config / VC 对象注册。
分离缓存系统
基于音频 SHA-256 哈希的智能缓存,人声/伴奏/干声三层缓存命中直接复用。
多层 Fallback 降级
链式分离:主模型→备用模型→subprocess;混音:pedalboard→简易模式;绝不崩溃。
优先级任务队列
HIGH/NORMAL 双优先级,任务重试机制,完成回调,队列管理(置顶/上移/下移/移除)。
线程安全取消系统
所有长任务支持随时取消,线程安全取消标志,循环中定期检查。
紫罗兰暮光主题
完整 CSS 设计系统,浅色/深色双模式,3 个 glow-orb 背景光晕。
彩色终端输出
14 种状态类型的彩色打印,带时间戳和图标,实时进度条。
全局崩溃保护
faulthandler 捕获 C 层 segfault,全局未捕获异常处理器,自动写入 error_log.txt。
细节见真章,15 项小巧思
这些不是核心功能,但恰恰是它们让 V9.0 用起来"很舒服"。
初始化守卫
_init_done 标志防止模块重复加载,启动快且稳定。
哈希缓存
基于音频 SHA-256 避免重复分离,大幅提升效率。
大模型拦截
自动检测 >300MB 模型,提示可能为 SVC 不兼容。
空文件检查
分离前检查文件大小,空文件直接跳过不浪费算力。
自动降级
MSST 不可用时自动跳过分离,绝不阻塞训练流程。
线程安全锁
_acquire_exec / _release_exec 防止并发冲突。
路径兼容性
%~dp0 替代绝对路径,完美支持含括号目录名。
上传持久化
修复 Gradio 临时文件被自动清理的问题。
GPU 显存检测
启动时自动检测并显示 GPU 型号与显存大小。
30 秒渐消
任务完成动画 30 秒自动渐变消失,清爽不扰。
智能参数匹配
基于 GPU 显存+切片数量自动计算最佳训练参数。
受保护目录
缓存清理时保护分离缓存/上传目录/输出目录。
5 分钟阈值
系统临时目录只清理 >5 分钟的旧文件,安全可靠。
编码兼容
启动时 sys.stdout.reconfigure 修复 Windows 编码问题。
代理字符修复
orjson 代理字符处理,防止 JSON 序列化崩溃。
从 v6.0 到 v9.0 的四重跨越
v6.0 免费整合包已停售,下方是 v9.0 全系进化的四项核心指标
全新底模 V3.0
更细腻的音色映射,目标音色特征被极致还原。全新一代底模重新学习声纹空间结构,解决 8.x 系列底模在长尾音色上的失真问题。
咬字优化算法
中文 / 英文咬字清晰度同步提升,吐字更准、边界更清晰。专门为中文声调 / 英文连读重写前处理流水线,告别 8.x 时代含糊的辅音。
破哑音抑制技术
动态识别并压制高频毛刺,让高音平稳过渡。引入动态谐波平滑器,在保持音色张力的同时彻底消除"破音"与"哑音"边界感。
音色相似度飙升
目标音色特征极致还原,真假难辨。在 600+ 模型库上跑过盲测,相似度均值从 56% 跃升到 98%,逼近"原声复刻"。
六项核心能力 已就位
点击左侧模块可查看实时数据与底层实现。