大语言模型综述

大模型历史
- 谷歌机器翻译团队提出的有多组Encoder、Decoder构成的机器翻译模型Transformer
大模型的发展走上了两条道路:
- 一条路仅使用Encoder作为编码器的预训练模型,尝试无监督预训练的方式,即Masked Language Model(MLM),通过Mask掉句子中的部分单词,让模型学习使用上下文预测被Mask掉的单词的能力
- 另一条路,基于Decoder部分,给定前面单词序列预测下一个单词来进行训练
大模型适合领域
- 自然语言生成
- 知识密集型任务:如闭卷问答、大规模多任务语言理解
- 推理任务:算术推理、常识推理
参考文献
综述:Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond
评论




