概括

在这个动手编码单元中，学生探索机器如何通过反复试验进行学习——背后的核心理念强化学习（RL）。使用划痕，学生构建自己的横向卷轴游戏，创建对手，然后集成一个真正的强化学习代理，随着时间的推移学习玩游戏。

该单元帮助学生了解计算机如何做出决策、规则与学习系统有何不同，以及人工智能代理如何使用奖励来提高其表现。学生们还讨论强化学习的伦理影响，例如快速学习与缓慢学习何时有益，以及试错系统在现实情况下何时可能存在风险。

最后，学生们以街机风格展示他们的游戏，并比较不同的强化学习配置如何改变人工智能对手的学习方式。

学生使用 Scratch 构建一个卷轴式游戏，然后编写一个简单的基于规则的对手。他们将人类设计的规则与计算机决策进行比较。

学生激活内置的强化学习对手，测试不同的 Q 表，并观察智能体如何通过奖励进行学习。他们探讨了传感器和学习率如何影响性能，并讨论了快速学习与慢速学习的优点和风险。

学生们在类似街机的环境中互相游玩彼此开发的游戏，评估哪些强化学习（RL）系统学习速度最快或效率最高。然后，他们探讨伦理问题：强化学习何时有用？何时不安全？在不同的现实场景中，失败的代价是什么？

机器如何学习？（带编码）