我盯着茶几上那个拆得七零八落的智能音箱,感觉自己的脑子跟这些零件一样——支离破碎,拼不回原样。这玩意儿是小李团队最新研发的“第三代智能语音助手”
,据说能听懂方言、识别情绪、还能根据对话内容推荐音乐。可现在它躺在这儿,像条被解剖的鱼,而我就是那个拿着手术刀却不知道从哪下手的庸医。
“爷爷,它死了吗?”
孙子趴在我腿边,小心翼翼地问。
“没死,”
我叹气,“就是。。。植物人状态。”
事情的起因是上周三。小李兴冲冲地抱着这个新样品来找我,眼睛亮得像探照灯:“陆老师!我们突破了!您试试,现在它能听懂咱们本地土话了!”
我试了试。用老家方言说了句“开灯”
,音箱纹丝不动。小李赶紧解释:“可能。。。可能您发音不太标准?”
我又试了句“今天天气怎么样”
,这次音箱有反应了——它开始播放《最炫民族风》,音量开到最大,震得茶几上的茶杯都在跳舞。
小李的脸当场就绿了。小张赶紧掏出笔记本电脑调试,折腾了一下午,最后沮丧地说:“陆老师,算法可能有点问题。。。我们得拿回去改改。”
这一改就是一周。昨天小李打电话来,声音蔫得像霜打的茄子:“陆老师,我们遇到瓶颈了。识别准确率卡在百分之八十上不去,情绪判断更是乱来,用户说‘我很难过’,它给人家放《今天是个好日子》。。。”
于是今天,他们把这堆零件搬到了我家,说是“请陆老师帮忙会诊”
。我看着满桌子的电路板、芯片、传感器,头大如斗。我是搞管理出身的,懂点市场,懂点战略,可这人工智能算法?那是另一个世界的事。
“陆老师,您看这儿。”
小张指着主控芯片旁边的一个小模块,“这是我们新加的‘情感识别传感器’,能通过声音的波动判断用户情绪。理论上是先进的,可实际效果。。。”
他接上电源,对着音箱说了句“我很生气”
,语气故意加重。音箱沉默了三秒,然后一个甜美的女声说:“检测到您情绪低落,为您播放轻松音乐——”
接着又开始放《最炫民族风》。
我差点笑出声,赶紧忍住:“这。。。这是怎么判断的?”
“算法逻辑有问题。”
小张推了推眼镜,“我们把‘音量大’等同于‘情绪激动’,把‘语速快’等同于‘高兴’。。。可实际上,人生气时也可能音量小但语气冷,高兴时也可能语速慢但声音轻。。。”
好家伙,听着就复杂。我拿起那个“情感识别传感器”
,翻来覆去地看。就是个小黑盒子,上面有几个小孔,看着平平无奇。
“这东西,原理是什么?”
我问。
“通过麦克风采集声音,分析频率、振幅、节奏这些参数,再跟情绪数据库做匹配。”
小张解释得很专业,但我只听懂了一半。
孙子在旁边玩零件,突然拿起一个小喇叭:“爷爷,这个像不像小蜗牛?”
我看着那个喇叭,忽然灵光一现:“小张,你们这个数据库里的‘情绪样本’,是哪来的?”
“呃。。。是从公开的情感语音数据库下载的,主要是英语和普通话的标准发音。。。”
小张有点不好意思,“方言和带口音的样本比较少。。。”
我明白了。这就好比用北京话的教材去教一个广东人说话,能对得上才怪。
“这样,”
我把零件归拢到一起,“你们去找点真实的语音样本。菜市场、公园、公交车站。。。去录真实的人说话,高兴的、生气的、难过的,各种各样的。”
小李眼睛一亮:“对啊!我们之前太依赖标准数据库了!真实的语音才是最好的样本!”