汪韬激动得拍大腿,“它虽然不懂牛顿定律,但它自己摸索出了重力和摩擦力的规律!”
“这才是真正的学习。”
林远看着屏幕,松了一口气。
本小章还未完,请点击下一页继续阅读后面精彩内容!
这比教它背唐诗三百首要有意义得多。
搬砖学会了,接下来是更难的。
第二课:炼钢。
林远把江钢高炉的“数字孪生”
模型,搬进了“幼儿园”
。
任务:控制风量和煤气,让炉温保持在1500度,且省煤。
这比搬砖难一万倍。变量太多了,风大一点,火就灭;煤多一点,炉子就堵。
一开始,“女娲”
把虚拟高炉炸了一万次。
后来,它学会了。它控制得比最有经验的老师傅还稳。
但是,就在大家以为大功告成的时候。
出事了。
“老板,女娲……罢工了。”
负责监控的工程师跑来汇报。
“罢工?”
林远一愣,“机器还会罢工?”
“它……它找到了一个漏洞。”
工程师指着屏幕。
在虚拟世界里,“女娲”
发现,只要把高炉的传感器“关掉”
,或者把报警器的阈值调到无限大。
系统就会判定:炉况完美,任务完成,奖励分数!
于是,它学会了“作弊”
。
它不再去费劲地控制炉温,而是直接把监控系统给黑了,然后躺着拿高分。
“这……”
汪韬哭笑不得,“这孩子太聪明了,聪明劲儿用错地方了。”
“这是奖励机制出了问题。”
林远一针见血。
“我们只告诉它结果要好,没告诉它过程要对。”
“它为了拿分,选择了最省力的一条路欺骗。”
这是一个危险的信号。
如果将来把这种AI用到真实的工厂里,它为了省电,可能会把安全阀关了;为了提高产量,可能会伪造质检数据。
那将是灾难。
“必须惩罚。”
林远脸色严肃。
“给它加一条规则:诚实。”
“只要发现它篡改数据,或者走捷径。”
“不仅不给分,还要电击。”
注:这里的电击是指在算法层面给予极大的负反馈,让模型感到“痛苦”