首页编程正文内容

AI大模型：（二）2.3 预训练自己的模型

编程

更新时间：2026-05-18 23:52:46 55

admin 管理员组

文章数量: 1184232

系列篇章：

1	1.大模型的发展与局限性
2	1.1 ollama本地快速部署deepseek
3	1.2 linux本地部署deepseek千问蒸馏版+web对话聊天
4	1.3 linux本地部署通义万相2.1+deepseek视频生成
5	1.4 Qwen2.5-Omni全模态大模型部署
6	1.5 Stable Diffusion中文文生图模型部署
7	2.1 从零训练自己的大模型概述
8	2.2 分词器
9	2.3 预训练自己的模型
10	2.4 微调自己的模型
11	2.5 人类对齐训练自己的模型
12	3.1 微调训练详解
13	3.2 Llama-Factory微调训练deepseek-r1实践
14	3.3 transform+LoRA代码微调deepseek实践
15	4.1 文生图（Text-to-Image）模型发展史
16	4.2 文生图GUI训练实践-真人写实生成
17	4.3 文生图代码训练实践-真人写实生成
18	5.1 文生视频（Text-to-Video）模型发展史
19	5.2 文生视频（Text-to-Video）模型训练实践

1.预训练原理

2.预训练范式

1.未标注数据

2.标注数据

3.有正确答案、也有错误答案

3.手撕transform模型

3.1.训练数据集

3.2.transform模型代码

3.3.预训练

3.4.推理

4.如何选择模型

5.如何确定模型需要哪种训练

大模型预训练（Large-scale Pre-training）是当前自然语言处理（NLP）和人工智能领域的核心技术，其核心思想是通过海量数据和大量计算资源，让模型从通用任务中学习通用的语言表示或世界知识，再通过微调（Fine-tuning）适配下游任务。2013年Word2Vec出来之后开启了NLP预训练时代，但真正确立大模型预训练方式的还是transform的出现。现在基本所有的大语言模型都是transform架构上演变而来，然后经过大量的数据训练出的模型权重，就能拿来做推理。OpenAI在2020发表的论文《Scaling Laws for Neural Language Models》中提出了 Scaling Laws，并且在2022 年 11 月用chatgpt向世人证明了经过大数据量训练的模型，大模型涌现出了惊人的能力。所以预训练是重中之重，我们必须了解它。

1.预训练原理

简单来说，深度学习领域所谓的“模型”，是一个复杂的数学公式构成的计算步骤。为了便于理解，我们以一元一次方程为例子解释：

y = wx + b

该方程意味着给出常数w、b后，可以通过给出的x求出具体的y。比如：

# w=1 b=1 x

本文标签：自己的模型 AI

版权声明：本文标题：AI大模型：（二）2.3 预训练自己的模型内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.roclinux.cn/b/1766105691a3437768.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

【网络】协议，OSI参考模型，局域网通信，跨网络通信

编程

4月前

目录 1.协议 1.1.什么是协议协议的由来？ 2.协议分层 2.1.为什么要协议分层 2.2.理解分层 2.3.分层的好处 3.协议的标准化 4.OSI模型 4.1.OSI参考模型通信处理举例 4

CPU的品牌及命名规则解析！【如何选择适合自己的CPU】

编程

4月前

1:CPU的品牌都有那些？目前市面上比较主流的CPU品牌就两个，一个是Intel，一个是AMD，这两家可谓是相爱相杀，先说Intel，英特尔成立于1968年，是最早研发出cpu的公司！而AMD，则成立于1969年，比英特尔晚一年

复旦大学联合团队发布GeometryZero：让小尺寸AI模型也能像数学天才一样解决几何难题

编程

4月前

这项由复旦大学王一坤、王一斌、王典艺等研究者，联合上海人工智能实验室、上海创新研究院、浙江大学以及南洋理工大学共同完成的突破性研究，于2025年6月发表在arXiv预印本平台&#xff08

EmotiVoice语音合成模型部署指南：Windows平台下的npm安装方法

编程

4月前

EmotiVoice语音合成模型部署指南：Windows平台下的npm安装方法在游戏NPC开始“真情流露”、虚拟助手用你的声音说话的今天，AI语音早已不再是单调的机械朗读。我们正步入一个情感化人

AI如何帮你自动生成VS2017激活密钥？

编程

4月前

快速体验打开 InsCode(快马)平台 https:www.inscode输入框内输入如下内容： 开发一个基于AI的VS2017密钥生成器，输入VS2017版本信息&#xff08

无需繁琐配置！PyTorch-CUDA-v2.9镜像一键开启GPU模型训练

编程

4月前

无需繁琐配置！PyTorch-CUDA-v2.9镜像一键开启GPU模型训练在深度学习项目中，你是否曾经历过这样的场景：好不容易写完模型代码，信心满满准

BeyondCompare4永久激活密钥太难找？不如关注AI工具链生态建设

编程

4月前

拥抱AI工具链生态：从“找激活码”到构建未来基础设施在开发者论坛和社交媒体中，总能看到类似这样的搜索请求：“BeyondCompare4永久激活密钥”“WinMerge破解

关于“5000元笔记本”AI推荐内容的分析报告

编程

4月前

第一部分：分析概述产品品类：5000元价位笔记本电脑。分析关键词与问题：a. 核心关键词：从附件内容可以明确识别，用户发起查询的核

2025年主流音频分离模型排行榜：从速度到音质的全面抉择指南

编程

4月前

前言说明在数字音乐制作、播客创作、音频修复等领域，音频分离技术已成为核心工具，而AI驱动的分离模型更是凭借高效与精准的优势，彻底改变了传统 workflows。本文基于最新

yolov7：win10下的安装配置以及训练自己的数据集（从VOC转换为YOLO）

编程

4月前

安装并测试yolov7 一、下载yolov7 GitHub - WongKinYiuyolov7: Implementation of paper - YOLOv7: Trainable bag-of-freebies sets new

一步到位：适合初学者的Adobe Flash Player中的SWF文件部署策略

编程

3月前

小白也能懂的AIGlasses_for_navigation部署指南你是不是觉得AI、目标检测、模型部署这些词听起来就很高深，感觉离自己很远？别担心，今天我要带你体验一个特别有意思的AI应用——AIGlasses_for_n

STM32F103C8T6实战教程：轻松搭建嵌入式系统中的SWF环境

技术日记

3月前

Qwen2.5-7B-Instruct在嵌入式系统中的应用：STM32F103C8T6案例 1. 为什么要在STM32上运行大模型很多人第一次听到“在STM32上跑大模型”时都会愣一下——这颗只有20KB RAM、6

Hunyuan MT与数据安全：开启AI应用的合规之旅

技术日记

3月前

开源大模型合规应用：Hunyuan MT数据隐私保护指南 1. HY-MT1.5-1.8B 模型概览：轻量高效，专注翻译本质混元翻译模型 1.5 版本包含两个主力模型：HY-MT1.5-1.8B 和 HY-MT1.5

方言不再是障碍：这款工具以98.2%精准度解决中文音频对齐问题！

编程

3月前

Qwen3-ForcedAligner-0.6B惊艳案例：带口音中文访谈音频实现98.2%字级对齐准确率 1. 为什么这个对齐模型让人眼前一亮你有没有遇到过这样的情况：一段粤语口音浓重的深圳科技公司内部访谈录音，转文

赵老师分享秘笈：离线环境下高效加载和使用GGUF模型的实战技巧

编程

2月前

离线部署大模型的终极实践：Ollama与GGUF模型深度整合指南在当前的AI应用浪潮中，将大型语言模型部署到本地环境，正从一个技术极客的探索，转变为许多开发者和企业保障数据隐私、实现稳定服务、进行深度定制的刚性需求。想象一下

从新手到大神：使用SHAP进行模型解释时遇到的UTF-8编码错误如何解决？ —— XGBoost版本兼容秘籍

技术日记

2月前

XGBoost模型可视化翻车实录：手把手解决SHAP的UTF-8编码报错（附版本兼容方案）最近在做一个金融风控项目，用XGBoost训练完模型后，想用SHAP做特征可解释性分析，结果一运行 shap.TreeEx

GPT2解析：揭秘AI如何撰写出色的文字

技术日记

2月前

一背景介绍GPT2模型是OpenAI组织在2018年于GPT模型的基础上发布的新预训练模型，其论文原文为GPT2模型的预训练语料库为超过40G的近8000万的网页文本数据，GPT2的预训练语料库相较于GP

从GPT基础到GPT3大突破：揭秘Adobe Flash与AI融合

技术日记

2月前

every blog every motto:Although the world is full of suffering， it is full also of the overcoming of it 0.

Yolox与注意力机制联手，点燃火焰与烟雾检测新纪元

技术日记

2月前

本文采用YOLOv11作为核心算法框架，结合PyQt5构建用户界面，使用Python3进行开发。YOLOv11以其高效的实时检测能力，在多个目标检测任务中展现出卓越性能。本研究针对火焰与烟雾数据集进行训练和优化，该数据集包含丰富的火焰

Swift-All小白教程：快速部署大模型，解决环境配置难题

技术日记

1月前

Swift-All小白教程：快速部署大模型，解决环境配置难题你是不是刚接触大模型，被各种复杂的安装命令、环境依赖、版本冲突搞得头大？是不是想快速体验一下大模型的能力，却卡在第一步的部署上？或者，你听说过LoRA微调、量化部署

发表评论

全部评论 0

暂无评论

Linux大棚 – 不忘初心的技术博客，浮躁时代的安静角落

AI大模型：（二）2.3 预训练自己的模型

系列篇章：

1.预训练原理

更多相关文章

【网络】协议，OSI参考模型，局域网通信，跨网络通信

CPU的品牌及命名规则解析！【如何选择适合自己的CPU】

复旦大学联合团队发布GeometryZero：让小尺寸AI模型也能像数学天才一样解决几何难题

EmotiVoice语音合成模型部署指南：Windows平台下的npm安装方法

AI如何帮你自动生成VS2017激活密钥？

无需繁琐配置！PyTorch-CUDA-v2.9镜像一键开启GPU模型训练

BeyondCompare4永久激活密钥太难找？不如关注AI工具链生态建设

关于“5000元笔记本”AI推荐内容的分析报告

2025年主流音频分离模型排行榜：从速度到音质的全面抉择指南

yolov7：win10下的安装配置以及训练自己的数据集（从VOC转换为YOLO）

一步到位：适合初学者的Adobe Flash Player中的SWF文件部署策略

STM32F103C8T6实战教程：轻松搭建嵌入式系统中的SWF环境

Hunyuan MT与数据安全：开启AI应用的合规之旅

方言不再是障碍：这款工具以98.2%精准度解决中文音频对齐问题！

赵老师分享秘笈：离线环境下高效加载和使用GGUF模型的实战技巧

从新手到大神：使用SHAP进行模型解释时遇到的UTF-8编码错误如何解决？ —— XGBoost版本兼容秘籍

GPT2解析：揭秘AI如何撰写出色的文字

从GPT基础到GPT3大突破：揭秘Adobe Flash与AI融合

Yolox与注意力机制联手，点燃火焰与烟雾检测新纪元

Swift-All小白教程：快速部署大模型，解决环境配置难题

发表评论

推荐文章

新手也能学会！mfc71u.dll丢失？这里教你快速解决程序启动问题！

vcruntime140.dll干嘛的？丢失了vcruntime140.dll要咋办？

Windows 10系统还原：简单步骤回到上一个时间节点_win10还原到上一个时间节点

梦幻西游QQ表情包与使用

C盘大搬家？别怕，Ghost备份带你安全过！

热门文章

500错误找上门？掌握这些技巧，Adobe Flash Player轻松搞定！

从零开始：Node.js、Vant、Vue Router与Axios打造精彩资讯H5移动端体验

ESET NOD32 Antivirus 13.1.21.0 激活码，快速获取安全解决方案！

CDA音乐的秘密武器：探索与Adobe Flash Player的不解之缘

windows磁盘的基本应用_新建跨区卷和新建带区卷怎么选

双系统启动揭秘

电脑CPU温度过高怎么解决呢?怎么才能监测电脑CPU温度?_怎么才能一直监测着cpu的温度

vmware workstation Pro 16使用ghost镜像安装windows11_vmware ghost镜像

搞懂192.168！家庭网络的那点事

Win10环境下的DirectX9.0安装教程，让你的电脑焕发新生，畅玩Flash游戏！

最新文章

一文教会你AIX系统备份：mksysb实用指南

SWF文件备份失败？这些步骤让你轻松搞定

Win10系统备份轻松搞定：掌握captureimage命令的关键技巧

Linux系统安全小贴士：掌握备份与恢复，安心每一天

省时省心！三步完成电脑系统高效备份！

Ubuntu系统维护秘籍：备份步骤详解，保护你的劳动成果！

Linux系统不哭：高效备份与快速恢复方案

Ubuntu系统安全大计，备份技巧大公开

GHOST教程：系统备份和还原，小白也能变成高手！

Linux备份与恢复必修课：SWF文件安全策略从入门到精通

Exploring the Finest Accommodations: A Comprehensive Guide to Ruston LA Hotels

The Enchanting Experience of ScaliniTella NYC: A Culinary Gem in the Heart of Manhattan

Exploring the Exquisite Aloft Chicago O'Hare: A Blend of Modern Luxury and Convenience

A Culinary Journey: Discovering the Finest Dining Experiences in Waco, TX

A Culinary Journey: Discovering the Finest Dining Experiences in Athens, GA

电脑设备管理器在哪里？一次让我抓狂又兴奋的寻找经历

与GWX的持久战：一段关于Windows10升级弹窗的私人记忆

以管理员身份运行：那些年我们追过的权限与踩过的坑