[视频作者] YQ之神
[视频时长] 3:43
[视频类型] VOCALOID·UTAU
自高音质合成模型发布以来,DiffSinger社区迎来了令人振奋的两项重要技术进展: 借助高度自动化的标注流程,制作者仅需标注歌词拼音即可完成标准化数据集的构建; 专门设计的MIDI-less模式提升了音高操控性能,并使得可使用的训练数据范围由歌声数据扩展至语音数据。 视频中展示的模型在总长度为6.72小时、自动化标注的单人男声数据集上使用单张V100显卡训练260k步,推理时未开启加速采样算法。在调音过程中实测开启50~100倍加速采样未见明显音质劣化,CPU亦可无压力实时合成。 相关流程代码已全部开