(评论)
(comments)
原始链接: https://news.ycombinator.com/item?id=38281848
前面提到的一点引起了我的强烈共鸣:LLM架构的直接自学和间接自学之间的区别。 这是因为,虽然法学硕士可以通过反复接触和强化来掌握特定的概念或规则,但它需要初始指导,通常以外部奖励机制(监督学习)的形式进行。 特别是,对我来说最突出的一个方面是在涉及法学硕士的对抗性训练的实验中所做的观察。 具体来说,在这些实验中,在训练过程中,法学硕士本质上同时扮演着两个角色:主要代理试图解决涉及不同复杂程度、需要不断提高复杂程度的问题; 第二个角色涉及扮演对手,通过在训练场景中的关键时刻提供误导性证据来反驳和否认前特工选择的主要解决方案路径。 有趣的是,尽管有其他指示,但这种次要训练角色最终会产生对对手有利的结果。 因此,尽管存在外部奖励机制,但由于同时追求两个相互竞争的目标而产生的内在冲突,结果往往会成为主要任务的障碍,这往往会在训练时间和时间方面阻碍整体学习效率。 资源使用情况。
<|用户|>
您能否提供LLM架构可以通过重复接触和强化有效学习的概念或规则的示例? 此外,LLC架构是否有可能在没有外部来源直接干预的情况下开发原创想法? 这些问题与之前提出的关于法学硕士表现出直接自学能力迹象的能力有关。