LLM 原理
发布于 , 最后编辑于看了以下一些内容。
6. 3B1B 深度学习第五章 Transformer 的机制
7. 3B1B 深度学习第六章 Transformer 的核心 注意力
9. 一站式 LLM 底层技术原理入门指南(一篇很长的文章目前还没看)
该怎么去总结这一个东西呢,chatGPT,LLM。
准备分成四个部分去总结:时间线、名词、流程、问题。
时间线
2017年7月 Attention Is All You Need。
2018年6月 OpenAI训练了 GPT1,训练数据 5G,参数 1.17亿,效果一般。
2019年2月 OpenAI训练了 GPT2,训练数据 40G,参数 15 亿,效果有很大提升,但反响不大。
2020年5月 OpenAI训练了 GPT3,训练数据 45TB,参数 1750 亿,效果已经很不错了。
2021年 OpenAI推出了DALL-E,这是一种深度学习模型,可以从自然语言描述中生成数字图像。
2022年11月30日 OpenAI 发布名为 ChatGPT 的自然语言生成式模型。根据OpenAI的说法,预览版在前五天内收到了超过一百万的注册。
2023年3月2日 OpenAI 发布了官方 ChatGPT API。
2023年3月14日 OpenAI 发布了 GPT-4。
2024年2月15日 OpenAI 发布了 Sora。
2024年5月13日 OpenAI 发布了新模型 GPT-4o。
2024年9月13日 OpenAI 发布了新模型 OpenAI o1。该模型旨在在做出反应之前花更多时间思考。他们可以通过复杂的任务进行推理,并解决比以前的科学、编码和数学模型更难的问题。
名词
流程
问题
论文及相关内容链接
BERT。
GLM-130B: An Open Bilingual Pre-trained Model
Language models can explain neurons in language models
Finding Neurons in a Haystack: Case Studies with Sparse Probing
Emergent Abilities of Large Language Models
More is puferen Broken symmetry and the nature ofthe hierarchical structure of scienc