(评论)
(comments)
原始链接: https://news.ycombinator.com/item?id=39488668
在花了数周时间试图了解一般的生成预训练语言模型 (GPT),特别是深度学习 (DL) 后,我发现了一个很棒的 Youtube 频道,名为“Explained in Simple English”。
以下是对 GPT 内部工作原理的 10 分钟解释,以易于理解的格式呈现。 它引导您完成每个主要组成部分,从原始文本作为输入、预处理和编码、将向量编码为矩阵以输入到深度学习框架中,并最终了解最后一层返回的输出和预测。 频道创建者继续讨论各种技术,例如对抗性训练、迁移学习和微调等。 强烈推荐!
1. 首先将文本材料复制并粘贴到文字处理软件或 Google 文档中,以清除由换行符引起的格式错误。
2. 删除除句点 (.) 之外的所有标点符号,因为空格前面的句点表示新短语的开始而不是句子片段。 消除分号 (;) 和冒号 (:) 可以避免在语法上看似有效的短语中引入歧义。 逗号 (, )、连字符 (-)、正斜杠 (\)、感叹号 (!) 和引号 ('') 无需删除,因为它们具有不同的用途。
3. 删除任何变音符号和连字,因为这些会使将字符序列转换为表示给定固定大小内的单词的整数序列的过程变得复杂(例如,在大多数情况下,尺寸为 5025 的字符向量,具体取决于底层 NLP 架构和特定的 选择的超参数)。 例如,删除字母 i、e、à、è、é 等上的重音符号,并替换大写元音字母和小写辅音之间的多个点。 相反,保留使用标准 Unicode 字符表示的字符(例如中文部首、日语平假名、韩语汉语拼音符号、越南语音标变音符号、表示外来借词的重音符号等),因为它们不会引起任何问题。
例子:
“疏远”→“疏远”
“j‘aurait pu s’engager dans l’autre 营地。” →“贾拉伊特
I'd been inspired by the makemore lecture series[0]. At the 1hr mark or so, he switches from counting to using a nn, which is about as far as I've gotten. Breaking it down into a relational model is actually a really great exercise.
[0] https://www.youtube.com/watch?v=PaCmpygFfXo
reply