Minimally-Supervised Speech Synthesis with Conditional Diffusion Model and Language Model: A Comparative Study of Semantic Coding

Chunyu Qiang, Hao Li, Hao Ni, He Qu, Ruibo Fu, Tao Wang, Longbiao Wang, Jianwu Dang


Tianjin University, Tianjin, China
Kuaishou Technology Co., Ltd, Beijing, China
Institute of Automation, Chinese Academy of Sciences, Beijing, China



Model Architecture

Overall Architecture


High Quality Data (1 hour)

Prompt Synthesized Speech
Target text 1 "钟上的时针指明这正是夜晚和睡觉的时候。"
Target text 1 "从地窖浮到地面的种子发了芽,长得又高又壮。"
Target text 1 "打破男性甚至是女性对于女性美的刻板印象。"
Target text 1 "瑞星公司为应对本次病毒成立应急处理小组"
Target text 1 "发现美国总统对犹太人的遭遇毫无兴趣"
Target text 1 "其次就是不单单街电完成了巨额融资。"
Target text 1 "要是如此每年的进士一箩筐一箩筐的出"
Target text 1 "就要付出近三亿英镑约二十六亿人民币"
Target text 1 "好在迷彩元素尽自己本能在收紧腰身"
Target text 1 "谁都比不过曾经叱咤内地歌坛的孙悦"
Target text 1 "我不要我一边捂着肚子一边叫我不要去山婆婆那儿"

Low Quality Data

Prompt Synthesized Speech (30 minutes) Synthesized Speech (15 minutes) Synthesized Speech (5 minutes)
Target text 1 "所以酒量是天生的,身体是自己的,喝到位就得了。"
Target text 1 "用户可以通过快手APP来创作自己的短视频内容。"
Target text 1 "快手数字人可以帮助用户实现从现实到虚拟、从自然到人工的转化。"
Target text 1 "这条全长一千九百六十公里的高速路串起了长江经济带的六个城市、三大城市群。"
Target text 1 "所以处女座就会操心,替自己操心,替身边的人操心。"
Target text 1 "煮出来的茶汤就不会有苦涩感。"
Target text 1 "但是这个药确实对口腔溃疡的治疗非常不错,那到底怎么用呢?"
Target text 1 "您好,欢迎致电,请问有什么可以帮到您?"
Target text 1 "这一款很适合您的气质,您可以试戴一下。"