第八十四章 强化学习 (2/2)
请安装我们的客户端
更新超快的免费小说APP
添加到主屏幕
请点击,然后点击“添加到主屏幕”
法的泛化性能,目的是减少优化算法的启动时间,同时提高优化能力。
目前这个方向要解决的主要问题是如何对队友指导和先验知识进行融合,以及多智能体设定下智能体之间的知识形式不一致的问题。
强化学习的时间比较长,如果每次遇到新的环境就完全重新开始学习,那么耗费的时间太多了。因此这种方法一定会广泛应用在场景变化较为频繁的场合。
以上两个方向没有什么像样的理论成果,事实上,也没有太多理论可以深挖。
最后介绍一个方向,可能对数学知识要求略高,高等概率论和高等随机过程是必须要掌握的,当然,前置数学课程也必须要掌握。
多智能体强化学习有限时间分析,研究算法在收敛性得以保证的前提下,学习策略和最优策略之间的误差与学习时间之间的关系。】
尚斌之前就整理过这些方向的资料,并且在懂乎写过相关回答,因此他闭着眼睛都可以讲得出来。
喝完剩下的半杯普洱茶之后,他继续说道:
【至于应用方面,需求量较小的我就不说了,机器人调度系统一直处于供不应求的状态,目前已经发展到第二代,也就是基于规划模型和启发式的方法.
很多公司已经开始研发第三代调度系统,所用的方法将会以强化学习等智能优化方法为主,你可以查一下这方面的资料。】
说完,尚斌随手将一些文献综述和经典算法论文打包发给对方。
匿名用户:【非常感谢老师,我暂时没有其他问题了。】
尚斌:【好的,之后有什么问题直接私信我就好,不必再付费了。】
匿名用户:【好的,谢谢老师!】
尚斌看看时间,已经过去接近一个小时,换做是去其他学校作学术报告,一小时少说也要1000第纳尔。
不过在懂乎,大多数向他咨询的人都是大学生,手头并不宽裕,按照学术报告的标准定价估计没人会发起咨询。
现在的学生真不容易啊,无论是考研还是就业,都比自己那时候困难得多。
唉,自己刚参加工作两个月不也是被裁掉了嘛。
回想起之前在掌掴大赛上搏脸厮杀,而今坐在高档座椅中的自己,尚斌顿时觉得普沃大学也没什么不好了。
他稍微歇了歇,打开自己的邮箱。
刚才进行咨询的时候,平板右下角就不断出现邮件提示。
他边进行咨询边大致浏览了一下收件箱,大概有二三十封未读邮件,几乎都是联系他作为硕士生导师的申请信。
尚斌评上正教授之后,李进校长专门特批了他作为硕士生导师,今年就可以开始招生。
只是王德才一直慢慢悠悠,直到昨天才通知行政人员在学科简介和师资队伍一栏中添加了尚斌的个人信息。
这个王德才,看来真是跟自己杠上了。
尚斌有些啼笑皆非,天天搞这些小动作有什么意思,有这些心思做课题捞钱不香吗?
他摇摇头,点开第一封邮件,看了不到两行就开始眉头微皱。