第884章乔布斯、盖茨还有初音未来
“我快吐血了……”
盖茨趴在电脑面前,然后用脸滚键盘……嗯,这感觉还真不错。
他自己自己以前和人玩《魔法世界》的时候,有一个名叫爱尔奎特的真祖女魔法师,对方最喜欢说的事情就是“我现在正在用脸滚键盘……”
而这个时候,盖茨才发现,原来这么做还真不错来着……
“耐心点,我们在人物建模方面,也没有什么进展,我们的计划才刚刚开始,机会总是有的……”
乔布斯也在挠头。
不知不觉中,原本搞到的十几万美金,现在已经用掉了一半了,但是接下来的事情,却比盖茨想象中的困难许多。
语音合成可不是那么简单的事情,这个时候的盖茨,就几乎被这个技术搞得吐血。
在给那群苏联间.谍开发的时候,盖茨使用的是硬件的方式,而现在,他却需要纯软件的技术。
语音合成,要求能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是中文信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。
盖茨先前思考的文语转换系统实际上可以看作是一个人工智能系统。
为了合成出高质量的语言,除了依赖于各种规则,包括语义学规则、词汇规则、语音学规则外,还必须对文字的内容有很好的理解,这也涉及到自然语言理解的问题。下图显示了一个完整的文语转换系统示意图。文语转换过程是先将文字序列转换成音韵序列,再由系统根据音韵序列生成语音波形。
其中第一步涉及语言学处理,例如分词、字音转换等,以及一整套有效的韵律控制规则;第二步需要先进的语音合成技术,能按要求实时合成出高质量的语音流。因此一般说来,文语转换系统都需要一套复杂的文字序列到音素序列的转换程序,也就是说,文语转换系统不仅要应用数字信号处理技术,而且必须有大量的语言学知识的支持。
进展之所以这么慢,是因为盖茨的资金已经捉襟见肘了,他急需一笔资金来维持自己的研究,要知道,为了自己的小公司,盖茨已经是费尽了心血,让他自己接下来再去请人,那盖茨的小公司最多两个月,可就要彻底的崩溃了。
但是这个计划却是无底洞,各类专家首先便需要一大堆,所谓的语言学,也仅仅只是一个开始而已。
语音合成的理论基础是语音生成的数学模型。该模型语音生成过程是在激励信号的激励下,声波经谐振腔(声道),由嘴或鼻辐射声波。因此,声道参数、声道谐振特性一直是研究的重点。习惯上,把声道传输频率响应上的极点称之为共振峰,而语音的共振峰频率(极点频率)的分布特性决定着该语音的音色。
音色各异的语音具有不同的共振峰模式,因此,以每个共振峰频率及其带宽作为参数,可以构成共振峰滤波器。再用若干个这种滤波器的组合来模拟声道的传输特性(频率响应),对激励源发出的信号进行调制,再经过辐射模型就可以得到合成语音。
而建立数学模型,也不是一个高中生能够做到了,这至少需要大学生,才有这方面的知识。
“我快吐血了……”
盖茨趴在电脑面前,然后用脸滚键盘……嗯,这感觉还真不错。
他自己自己以前和人玩《魔法世界》的时候,有一个名叫爱尔奎特的真祖女魔法师,对方最喜欢说的事情就是“我现在正在用脸滚键盘……”
而这个时候,盖茨才发现,原来这么做还真不错来着……
“耐心点,我们在人物建模方面,也没有什么进展,我们的计划才刚刚开始,机会总是有的……”
乔布斯也在挠头。
不知不觉中,原本搞到的十几万美金,现在已经用掉了一半了,但是接下来的事情,却比盖茨想象中的困难许多。
语音合成可不是那么简单的事情,这个时候的盖茨,就几乎被这个技术搞得吐血。
在给那群苏联间.谍开发的时候,盖茨使用的是硬件的方式,而现在,他却需要纯软件的技术。
语音合成,要求能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是中文信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。
盖茨先前思考的文语转换系统实际上可以看作是一个人工智能系统。
为了合成出高质量的语言,除了依赖于各种规则,包括语义学规则、词汇规则、语音学规则外,还必须对文字的内容有很好的理解,这也涉及到自然语言理解的问题。下图显示了一个完整的文语转换系统示意图。文语转换过程是先将文字序列转换成音韵序列,再由系统根据音韵序列生成语音波形。
其中第一步涉及语言学处理,例如分词、字音转换等,以及一整套有效的韵律控制规则;第二步需要先进的语音合成技术,能按要求实时合成出高质量的语音流。因此一般说来,文语转换系统都需要一套复杂的文字序列到音素序列的转换程序,也就是说,文语转换系统不仅要应用数字信号处理技术,而且必须有大量的语言学知识的支持。
进展之所以这么慢,是因为盖茨的资金已经捉襟见肘了,他急需一笔资金来维持自己的研究,要知道,为了自己的小公司,盖茨已经是费尽了心血,让他自己接下来再去请人,那盖茨的小公司最多两个月,可就要彻底的崩溃了。
但是这个计划却是无底洞,各类专家首先便需要一大堆,所谓的语言学,也仅仅只是一个开始而已。
语音合成的理论基础是语音生成的数学模型。该模型语音生成过程是在激励信号的激励下,声波经谐振腔(声道),由嘴或鼻辐射声波。因此,声道参数、声道谐振特性一直是研究的重点。习惯上,把声道传输频率响应上的极点称之为共振峰,而语音的共振峰频率(极点频率)的分布特性决定着该语音的音色。
音色各异的语音具有不同的共振峰模式,因此,以每个共振峰频率及其带宽作为参数,可以构成共振峰滤波器。再用若干个这种滤波器的组合来模拟声道的传输特性(频率响应),对激励源发出的信号进行调制,再经过辐射模型就可以得到合成语音。
而建立数学模型,也不是一个高中生能够做到了,这至少需要大学生,才有这方面的知识。