5章 、语义识别的难点(2/4)
“智能小语1.🎫🔅🎫🔅0七天后正式上线!”朱成很快就看到了🏽☁顶端的信息。
“暂时推出的软件分个人版和企业版。个人版免费使用,企业版有为期七天的试用期⛙🚳🗞。”
在软件的下方还分别🕋有个简介。个人版对于生活方面的识别会更加🔁♕精准,而企业🕘版更注重于会议,可支持多人同时录入,抗噪音能力也更强,并且还可以选择去口语化,使会议内容更接近书面格式。
网页里面的信息不多,很快朱成就看完了。对于七天后软件的发布十分期待,语音录⛙🚳🗞入可是懒人必备的神器啊,以后估计都不用打字了。
“智能小语,也可以叫语音输入法吧?”
如果不用打字了,是不是意味着键盘也没用了?那笔记本岂不是可以做的更薄?不对,⛨没了键盘不就成了平板么?🄵朱成想到了这一点,感觉自家的电脑城可以多进一些平板电脑了。
在外界因为语音识别而震惊的时候,罗辑所在的机房却只能听到敲键盘的声音。尽管语音识别已经做了出来,但对于写代码而言意义不大。真📪🝮正能将罗辑从这些繁重的任务中解救出来的只有语义识别🐞🀽!
开发语义识别,就如同罗辑预料的那样,并不是一🁁块好🏾啃的骨😜头。
更何况🜶是中文体系上的语义识别,这比其它语言要难上几个级别。光是分词这一项,就能让人死掉不少脑细胞。中文不同于单词组成的拉丁文,拉丁文单词间的空格可以大幅度减少电脑的识别难度,而中文却不行。
在中文里面,一句话就有很多意思。别说电脑了,有时候就连人也不好分辨。比如那句著名的“下雨天🜴🆛🐓留客天天留我不留”,在没有标点符号的情况下,它至少有七种意思。对于电脑而言,别说这种地狱级的🞡🕪🌝分词,哪怕是一些人们看来再简单不过的句子🔿🆛也很难分辨。
比如“华科大学生前🕋来应聘”,电脑可能会理解为“华🏾科大学,生前🎈🏅🗯,来应聘”。
中文语义识🍂🅔🆕别的第一个难点,也可以说是最大的难点便在这里。怎样的分👴🍈🆋词算法才是最完美的?
罗辑在科技树中找到🕋了方案,一种基于统计学模型的算法,构建一个三维矩阵,选取概率最高的一个。xy轴是任意两个词语的组合,而z轴则是场景状态,根据语气和语态选取🎹的最佳方案。
“不过这需要联网。”罗辑琢磨了一下,这似乎是目前最好的方案,虽然他的🜠本意是打造一个可用于线下服务的智能,但是以现在的设备存储能力想要存下大量的语料库,根本就是天方夜谭。电脑肯定是不行的,光脑还差不多。
“联网就联网吧,在程序里预留一些常用算法,🙚🕂断🁁网勉强也能😜用。”
解决了第🐔一个问题之后,罗辑又陷入了瓶颈。他蓦然想起中文还有一点很蛋疼,那就是没有和🞫🗂英文一样可用于区分人名地🟇🚿名的大小写。
要是仅仅这样也就罢了,关键是有些人的名🙟字起就是一个词语,如果分词程序有智能的话,它一定会把这些人拖出去🞕📾砍死。🔰🄐比如高峰、汪洋、罗辑……
“这……还是不要砍死了,半残就好。”
罗辑😦马上停止了抱怨了,再困难也要解🍮决不是?
“暂时推出的软件分个人版和企业版。个人版免费使用,企业版有为期七天的试用期⛙🚳🗞。”
在软件的下方还分别🕋有个简介。个人版对于生活方面的识别会更加🔁♕精准,而企业🕘版更注重于会议,可支持多人同时录入,抗噪音能力也更强,并且还可以选择去口语化,使会议内容更接近书面格式。
网页里面的信息不多,很快朱成就看完了。对于七天后软件的发布十分期待,语音录⛙🚳🗞入可是懒人必备的神器啊,以后估计都不用打字了。
“智能小语,也可以叫语音输入法吧?”
如果不用打字了,是不是意味着键盘也没用了?那笔记本岂不是可以做的更薄?不对,⛨没了键盘不就成了平板么?🄵朱成想到了这一点,感觉自家的电脑城可以多进一些平板电脑了。
在外界因为语音识别而震惊的时候,罗辑所在的机房却只能听到敲键盘的声音。尽管语音识别已经做了出来,但对于写代码而言意义不大。真📪🝮正能将罗辑从这些繁重的任务中解救出来的只有语义识别🐞🀽!
开发语义识别,就如同罗辑预料的那样,并不是一🁁块好🏾啃的骨😜头。
更何况🜶是中文体系上的语义识别,这比其它语言要难上几个级别。光是分词这一项,就能让人死掉不少脑细胞。中文不同于单词组成的拉丁文,拉丁文单词间的空格可以大幅度减少电脑的识别难度,而中文却不行。
在中文里面,一句话就有很多意思。别说电脑了,有时候就连人也不好分辨。比如那句著名的“下雨天🜴🆛🐓留客天天留我不留”,在没有标点符号的情况下,它至少有七种意思。对于电脑而言,别说这种地狱级的🞡🕪🌝分词,哪怕是一些人们看来再简单不过的句子🔿🆛也很难分辨。
比如“华科大学生前🕋来应聘”,电脑可能会理解为“华🏾科大学,生前🎈🏅🗯,来应聘”。
中文语义识🍂🅔🆕别的第一个难点,也可以说是最大的难点便在这里。怎样的分👴🍈🆋词算法才是最完美的?
罗辑在科技树中找到🕋了方案,一种基于统计学模型的算法,构建一个三维矩阵,选取概率最高的一个。xy轴是任意两个词语的组合,而z轴则是场景状态,根据语气和语态选取🎹的最佳方案。
“不过这需要联网。”罗辑琢磨了一下,这似乎是目前最好的方案,虽然他的🜠本意是打造一个可用于线下服务的智能,但是以现在的设备存储能力想要存下大量的语料库,根本就是天方夜谭。电脑肯定是不行的,光脑还差不多。
“联网就联网吧,在程序里预留一些常用算法,🙚🕂断🁁网勉强也能😜用。”
解决了第🐔一个问题之后,罗辑又陷入了瓶颈。他蓦然想起中文还有一点很蛋疼,那就是没有和🞫🗂英文一样可用于区分人名地🟇🚿名的大小写。
要是仅仅这样也就罢了,关键是有些人的名🙟字起就是一个词语,如果分词程序有智能的话,它一定会把这些人拖出去🞕📾砍死。🔰🄐比如高峰、汪洋、罗辑……
“这……还是不要砍死了,半残就好。”
罗辑😦马上停止了抱怨了,再困难也要解🍮决不是?