大模型历史

  • 谷歌机器翻译团队提出的有多组Encoder、Decoder构成的机器翻译模型Transformer

大模型的发展走上了两条道路:

  • 一条路仅使用Encoder作为编码器的预训练模型,尝试无监督预训练的方式,即Masked Language Model(MLM),通过Mask掉句子中的部分单词,让模型学习使用上下文预测被Mask掉的单词的能力
  • 另一条路,基于Decoder部分,给定前面单词序列预测下一个单词来进行训练

大模型谱树

大模型适合领域

  • 自然语言生成
  • 知识密集型任务:如闭卷问答、大规模多任务语言理解
  • 推理任务:算术推理、常识推理

参考文献

综述:Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond

论文集:https://github.com/Mooler0410/LLMsPracticalGuide