| ||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||
![]() |
原始链接: https://news.ycombinator.com/item?id=39387850
总之,Llama2.jl 提供了 vanilla Julia 代码来在 CPU 上训练小型 Llama2 风格的模型。 虽然由于法律限制,寻找开源数据有时具有挑战性,但近年来,得益于 Andre Karpathy 的“NN Zero to Hero”YouTube 系列或 Neel Nanda 和 Callum McDougall 的资源,基于 Transformer 的神经网络变得越来越流行和易于使用 从头开始变压器教程。 然而,问题仍然是仅使用 Python 训练大型语言模型是否会导致性能和质量受到限制。 尽管如此,nanoGPT 等项目的存在证明,尽管面临这些挑战,必要的代码仍然可用。 总体而言,自然语言处理和深度学习研究的流行继续激发了教导机器学习语言的创新方法,就像人类学习新语言一样——通过理解文本中的模式而不是被迫记住大量词汇。
| ||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||
![]() |
[1] https://github.com/cafaxo/Llama2.jl/tree/master/src/training
reply