首页 全部 Pieck 的博客

LLM 原理

发布于 , 最后编辑于

看了以下一些内容。

1. 大圣关于 GPT 原理的总结

2. 新石器公园科普 GPT 上

3. 新石器公园科普 GPT 下

4. 渐构科普GPT

5. 青工所科普GPT

6. 3B1B 深度学习第五章 Transformer 的机制

7. 3B1B 深度学习第六章 Transformer 的核心 注意力

8. 3B1B 深度学习第七章

9. 一站式 LLM 底层技术原理入门指南(一篇很长的文章目前还没看)

该怎么去总结这一个东西呢,chatGPT,LLM。

准备分成四个部分去总结:时间线、名词、流程、问题。

时间线

2017年7月 Attention Is All You Need

2018年6月 OpenAI训练了 GPT1,训练数据 5G,参数 1.17亿,效果一般。

2019年2月 OpenAI训练了 GPT2,训练数据 40G,参数 15 亿,效果有很大提升,但反响不大。

2020年5月 OpenAI训练了 GPT3,训练数据 45TB,参数 1750 亿,效果已经很不错了。

2021年 OpenAI推出了DALL-E,这是一种深度学习模型,可以从自然语言描述中生成数字图像。

2022年11月30日 OpenAI 发布名为 ChatGPT 的自然语言生成式模型。根据OpenAI的说法,预览版在前五天内收到了超过一百万的注册。

2023年3月2日 OpenAI 发布了官方 ChatGPT API。

2023年3月14日 OpenAI 发布了 GPT-4。

2024年2月15日 OpenAI 发布了 Sora。

2024年5月13日 OpenAI 发布了新模型 GPT-4o。

2024年9月13日 OpenAI 发布了新模型 OpenAI o1。该模型旨在在做出反应之前花更多时间思考。他们可以通过复杂的任务进行推理,并解决比以前的科学、编码和数学模型更难的问题。

名词

流程

问题

论文及相关内容链接

GPT-1

BERT

GPT-2

GPT-3

识别态度

归纳思想

拆分结构

语境内学习

GPT-3.5

2017年的论文

2020年的论文

基辛格认为

GPT-4 Technical Report

为什么说 GPT 是无损压缩

GLM-130B: An Open Bilingual Pre-trained Model

Language models can explain neurons in language models

Finding Neurons in a Haystack: Case Studies with Sparse Probing

Emergent Abilities of Large Language Models

More is puferen Broken symmetry and the nature ofthe hierarchical structure of scienc

Minds, brains, and programs

A Mathematical Theory ofCommunication

思考,快与慢

State-of-GPT

State-of-GPT