admin 管理员组

文章数量: 1184232

系列篇章:

1 1.大模型的发展与局限性
2 1.1 ollama本地快速部署deepseek
3 1.2 linux本地部署deepseek千问蒸馏版+web对话聊天
4 1.3 linux本地部署通义万相2.1+deepseek视频生成
5 1.4 Qwen2.5-Omni全模态大模型部署
6 1.5 Stable Diffusion中文文生图模型部署
7 2.1 从零训练自己的大模型概述
8 2.2 分词器
9 2.3 预训练自己的模型
10 2.4 微调自己的模型
11 2.5 人类对齐训练自己的模型
12 3.1 微调训练详解
13 3.2 Llama-Factory微调训练deepseek-r1实践
14 3.3 transform+LoRA代码微调deepseek实践
15 4.1 文生图(Text-to-Image)模型发展史
16 4.2 文生图GUI训练实践-真人写实生成
17 4.3 文生图代码训练实践-真人写实生成
18 5.1 文生视频(Text-to-Video)模型发展史
19 5.2 文生视频(Text-to-Video)模型训练实践

目录

1.预训练原理

2.预训练范式

        1.未标注数据

        2.标注数据

        3.有正确答案、也有错误答案

3.手撕transform模型

3.1.训练数据集

3.2.transform模型代码

3.3.预训练

3.4.推理

4.如何选择模型

5.如何确定模型需要哪种训练


       大模型预训练(Large-scale Pre-training)是当前自然语言处理(NLP)和人工智能领域的核心技术,其核心思想是通过海量数据和大量计算资源,让模型从通用任务中学习通用的语言表示或世界知识,再通过微调(Fine-tuning)适配下游任务。2013年Word2Vec出来之后开启了NLP预训练时代,但真正确立大模型预训练方式的还是transform的出现。现在基本所有的大语言模型都是transform架构上演变而来,然后经过大量的数据训练出的模型权重,就能拿来做推理。OpenAI在2020发表的论文《Scaling Laws for Neural Language Models》中提出了 Scaling Laws,并且在2022 年 11 月用chatgpt向世人证明了经过大数据量训练的模型,大模型涌现出了惊人的能力。所以预训练是重中之重,我们必须了解它。

1.预训练原理

        简单来说,深度学习领域所谓的“模型”,是一个复杂的数学公式构成的计算步骤。为了便于理解,我们以一元一次方程为例子解释:

y = wx + b

该方程意味着给出常数w、b后,可以通过给出的x求出具体的y。比如:

# w=1 b=1 x

本文标签: 自己的 模型 AI