首页技术日记正文内容

走进GPT时代：GPT、GPT2与GPT-3的发展路径与核心特征解析

技术日记

更新时间：2026-04-03 09:50:25 26

admin 管理员组

文章数量: 1184232

内容整理自：
大家有时间还是去看李沐大佬讲，才一个半小时，收获很多~~~

总结

GPT、GPT2、GPT3的共同点是其结构都基于Transformer的Decoder层。
区别在于：
模型一个比一个大，数据量一个比一个多。
GPT为常规语言模型
GPT2卖点指向zero-shot
GPT3卖点指向Few-shot

GPT: Improving Language Understanding by Generative Pre-Training

论文：（使用通用的预训练模型来提升语言理解能力）

基本思想 ：
先在 没有标签 的数据集上训练预训练语言模型，再在子任务上微调（自监督学习）。与之前的任务（word2vec也是在没有标签的数据集上预训练语言模型）不同， 微调时只需要改变模型输入的形式 ，而不需要对模型结构进行改变。模型结构选用的是 12层 的 Transformer 的 decoder 。
无监督的预训练过程
给定一个序列 $U=\{u_i,…,u_n\}$ ，使用一个标准的语言模型目标来最大化下面的似然函数：
$L_1(U)=\sum_ilogP(u_i|u_{i-k}, …, u_{i-1};\theta)$
其中， $k$ 为上下文窗口大小， $\theta$ 代表模型参数。即给定一个模型（GPT中指的是Transformer decoder），给定前 $k$ 个词，预测当前词。

本文标签：微调阶段的数据集论文

版权声明：本文标题：走进GPT时代：GPT、GPT2与GPT-3的发展路径与核心特征解析内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.roclinux.cn/p/1772015744a3551161.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

论文分享--- >Learning to Rank: From Pairwise Approach to Listwise Approach

编程

4月前

博客内容将首发在微信公众号"跟我一起读论文啦啦"，上面会定期分享机器学习、深度学习、数据挖掘、自然语言处理等高质量论文，欢迎关注！本篇博文分享和总结

《论文笔记》A Frontier-Based Approach for Autonomous Exploration

编程

4月前

《A Frontier-Based Approach for Autonomous Exploration》作者：Brian Yamauchi 单位：海军人工智能应用研究中心华盛顿海军研究实验室会议：IEEE Internatio

【论文阅读】Attributed Graph Clustering: A Deep Attentional Embedding Approach

编程

4月前

【原文】Chun Wang, Shirui Pan, Ruiqi Hu, Guodong Long, Jing Jiang, Chengqi Zhang. Attributed Graph Clustering: A Deep Attent

【论文笔记】PassGAN: A Deep Learning Approach for Password Guessing

编程

4月前

title: “【论文笔记】PassGAN: A Deep Learning Approach for Password Guessing” date: 2019-10-12 lastmod: 2019-10-12 draft: False

2025年最受欢迎的10款AI论文工具，解决赶稿难题的实用选择。

编程

4月前

2025年推出的智能降重工具通过优化算法逻辑和语境识别能力，有效解决了传统AI改写中常见的语义失真和术语误改问题，其核心突破在于采用深度学习模型精准捕捉专业文本的学术语境，避

GPT promote 论文学术润色提示词

编程

4月前

学术写作的润色01我正在为某知名[学科]学术期刊撰写一篇关于[主题]的论文。我在以下部分试图表达的是[具体观点]。请重新措辞，使之清晰、连贯、简洁，确保每段之间衔接流畅。去除口语化的内容&

【论文解读】The Power of Scale for Parameter-Efficient Prompt Tuning

编程

4月前

一.介绍 1.1 promote tuning 和 prefix tuning 的关系 “前缀调优”的简化版 1.2 大致实现冻结了整个预训练模型，并且只允许每个下游任务附加k个可调令牌到输入文本。这种“软提

论文翻译器：pdf 英文论文一键转换成中英文对照的文档

编程

4月前

受不了现有翻译工具的各种限制，于是自己写了个 pdf 翻译工具，接口来自百度翻译，翻译效果如图所示开源地址：https:githubflari

在线免费PDF英文论文全文翻译

编程

4月前

https:cloud.tencentdevelopernews110496

各种英文翻译汇总（包含pdf翻译，主要针对英文论文）

编程

4月前

英文论文怎么看？个人观点是先大概翻译一下，通读大意，再看原文细扣。（英语大佬请自便），下面介绍一下笔者常用的

一场AI辅助学术写作之战：ChatGPT vs DeepSeek，谁更懂论文？

编程

4月前

AI写作正在改变学术世界。越来越多的研究者、学生、教师，开始用AI工具辅助论文选题、文献综述、章节撰写、语法优化。而在这场“学术写作革命”中，ChatGPT 和 DeepSeek 是被讨论最多

基于数据可视化+SpringBoot+Vue的社区帮帮团设计和实现(源码+论文+部署讲解等)

编程

3月前

博主介绍：✌全网粉丝50W,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金华为云阿里云InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师讲师

ChatGPT 助力论文字数合理扩充：4步法则轻松达标

编程

3月前

添加图片注释，不超过 140 字（可选）朋友们，今天阿九要和大家分享如何利用ChatGPT来合理扩充论文字数。相信很多同学都有过为凑字数而苦恼的经历&a

ChatGPT翻译论文：4步法则提升学术翻译质量

编程

3月前

添加图片注释，不超过 140 字（可选）今天阿九要和大家分享如何利用ChatGPT翻译论文，让你的学术翻译质量突飞猛进。关于如何用ChatGPT翻译论文

【论文阅读】PL-SLAM: a Stereo SLAM System through the Combination of Points and Line Segments

编程

3月前

一、系统总览这次的PLSLAM和之前的那个PLSLAM是两个东西，上一个PLSLAM相当于只有前端而没有后端，更多地是提出了一个前端的重投影误差，而这次的PLSLAM则是一

论文润色终极指南：30条DeepSeek顶级指令助你攻克学术表达难题

编程

3月前

写论文时，语言细节往往决定成败。职称评审或顶刊投稿中，逻辑混乱、术语不规范等问题常会让论文大打折扣。今天分享30条DeepSeek实操指令，覆盖语法修正、逻辑优化、学术表达升

【论文简介】Circle Loss: A Unified Perspective of Pair Similarity Optimization

编程

3月前

Circle Loss: A Unified Perspective of Pair Similarity Optimization 旷世cvpr2020的一篇文章，站在更高的视角，统一了deep feature learning的两大基

2025计算机视觉论文综述汇总

编程

3月前

2025.5.23 分类由AI生成遥感图像处理遥感基础模型：A Survey on Remote Sensing Foundation Models-- From Vision to Multimodality

论文阅读：ACM SIGIR 2025 Principles and Guidelines for the Use of LLM Judges

编程

3月前

总目录大模型相关研究：https:blog.csdnWhiffeYFarticledetails142132328 https:dl.acmdoiabs10.11453731120.3744588 https:

基于Android的安全知识学习APP的设计与实现(论文+源码)_kaic

编程

3月前

基于Android的安全知识学习APP的设计与实现摘要随着科技的进步，智能手机已经成为人们工作、学习和生活的必需品。基于Android系统的强大功能，使用Java语言、Linux操作系统

发表评论

全部评论 0

暂无评论

推荐文章

C++编程误区：无限弹窗的诅咒，如何摆脱它？

我的电脑播放声音总是有奇怪的噪音，怎么办？

解决方案中word中分页符的使用_删除分页符csdn

如何在 Windows 10 中使用系统还原修复问题_系统恢复可修复驱动错误吗

从新手到大师：运用Flash中心开发出令人上瘾的游戏

热门文章

最新文章