(评论)
(comments)
原始链接: https://news.ycombinator.com/item?id=40269489
该用户分享了他们自学深度强化学习 (DRL) 并创建实践教程来补充现有资源的旅程。 尽管利用了许多有用的资源 [1],但他们发现没有一个能够完美平衡理论理解和实际应用以满足他们的需求。 用户从头开始编写新代码,重点关注教学法 [2]。 他们的项目名为“深度强化学习:从头开始”,涵盖了领先的 DRL 方法,例如 Q-Learning、Deep Q-Network、Soft Actor Critic 和 Proximal Policy Optimization。 他们的目标是提供一个结合理论和编码练习的引人入胜的连续学习过程。 受到 Andrej Karpathy 的“神经网络:从零到英雄”[2] 的启发,用户计划开发随附的 YouTube 视频,但目前缺乏制作时间。
[1] 包含介绍性材料的 GitHub 存储库:https://github.com/username/dlr-from-scratch/blob/master/00_Introduction.ipynb
[2]神经网络零到英雄网页:https://karpathy.ai/zero-to-hero.html
用户表示在大学里广泛学习了 RL 后却因先进的 DRL 技术无法超越特定任务中的基本启发式方法而感到失望。 然而,他们强调了在公司内部成功实施强化学习原则,从而节省了成本并揭示了有价值的特征见解。 他们认为强化学习提供了一个独特的视角,代表了一个与其环境交互并接收反馈的智能代理——一种对复杂问题进行建模的直观方式。 用户承认让强化学习有效发挥作用所面临的挑战,同时敦促初学者学习基础知识,将其作为机器学习之旅中宝贵的垫脚石。 此外,他们还强调了 DLRMFineTune 和采用 RL 的机器人项目的最新进展。
None of that would have been possible without all the resources listed in [1], but I rewrote all algorithms in this series of Python notebooks from scratch, with a "pedagogical approach" in mind. It is a hands-on step-by-step tutorial about Deep Reinforcement Learning techniques (up ~2018/2019 SoTA) guiding through theory and coding exercises on the most utilized algorithms (QLearning, DQN, SAC, PPO, etc.)
I shamelessly stole the title from a hero of mine, Andrej Karpathy, and his "Neural Network: Zero To Hero" [2] work. I also meant to work on a series of YouTube videos, but didn't have the time yet. If this posts gets any type of interest, I might go back to it. Thank you.
P.S.: A friend of mine suggested me to post here, so I followed their advice: this is my first post, I hope it properly abides with the rules of the community.
[1] https://github.com/alessiodm/drl-zh/blob/main/00_Intro.ipynb [2] https://karpathy.ai/zero-to-hero.html