从头开始建立法学硕士：自动区分（2023）

从头开始建立法学硕士：自动区分（2023）
Building an LLM from Scratch: Automatic Differentiation (2023)

原始链接: https://bclarkson-code.github.io/posts/llm-from-scratch-scalar-autograd/post.html

当前实现的一个关键限制是其范围仅限于涉及加法、减法和乘法的简单数学表达式。然而，通过一些修改，它可以扩展到处理构建神经网络所需的向量和矩阵操作。通过这样做，就可以使用 Tricycle 框架创建复杂的模型。此外，它还可以通过转换为 TensorsFlowGraph 格式来支持 Keras 等流行的机器学习库。

总之，Llama2.jl 提供了 vanilla Julia 代码来在 CPU 上训练小型 Llama2 风格的模型。虽然由于法律限制，寻找开源数据有时具有挑战性，但近年来，得益于 Andre Karpathy 的“NN Zero to Hero”YouTube 系列或 Neel Nanda 和 Callum McDougall 的资源，基于 Transformer 的神经网络变得越来越流行和易于使用从头开始变压器教程。然而，问题仍然是仅使用 Python 训练大型语言模型是否会导致性能和质量受到限制。尽管如此，nanoGPT 等项目的存在证明，尽管面临这些挑战，必要的代码仍然可用。总体而言，自然语言处理和深度学习研究的流行继续激发了教导机器学习语言的创新方法，就像人类学习新语言一样——通过理解文本中的模式而不是被迫记住大量词汇。

Setup

from typing import Any, Optional, List

import networkx as nx

\(x + y\)	\(1\)	\(1\)
\(x - y\)	\(1\)	\(-1\)
\(x \times y\)	\(y\)	\(x\)

The Algorithm™