首页技术日记正文内容

transformer模型公式详解

技术日记

更新时间：2025-05-05 16:01:10 27

admin 管理员组

文章数量: 1086019

2024年3月28日发(作者：网站首页模板修改后为什么不保存)

transformer模型公式详解

Transformer模型是一种基于自注意力机制的序列到序列模

型，在自然语言处理中取得了很多优秀的成果，如BERT、GPT等。

本文主要介绍Transformer模型的公式及其详解。

1. Multi-Head Attention

首先是Transformer模型的核心组件——多头注意力机制。其

公式为：

$$ Attention(Q,K,V)=softmax(frac{QK^T}{sqrt{d_k}})V $$

其中，$Q$、$K$、$V$是输入的查询(Query)、键值(Key)、值

(Value)向量，$d_k$是向量的维度。softmax表示对权重进行归一

化，使它们的和等于1。

Multi-Head Attention，即多头注意力机制，是将多个不同的

注意力机制并行地作用于同一个输入，然后将它们的输出在最后拼

接起来。具体公式如下：

$$ MultiHead(Q,K,V)=Concat(head_1,...,head_h)W^O $$

其中，$head_i=Attention(QW_i^Q,KW_i^K,VW_i^V)$，

$W_i^Q$、$W_i^K$、$W_i^V$为不同的线性映射矩阵，$W^O$为一个

线性映射矩阵，$h$是头的数量。

2. Position-wise Feed-Forward Network

除了多头注意力机制，Transformer模型还使用了一种简单的

前馈神经网络，即Position-wise Feed-Forward Network。其公式

为：

- 1 -

$$ FFN(x)=max(0,xW_1+b_1)W_2+b_2 $$

其中，$x$为输入，$W_1$、$b_1$、$W_2$、$b_2$为可学习的参

数。这种前馈神经网络可以看作是在每个位置独立地处理输入向

量。

3. Encoder Layer

接下来是Transformer模型的Encoder Layer。其公式为：

$$ EncoderLayer(x)=MultiHeadNorm(x+MultiHead(x))FFNNorm(x+F

FN(x)) $$

其中，$x$为输入，$MultiHead$表示多头注意力机制，$FFN$表

示前馈神经网络，$Norm$表示层归一化，即对每个位置的向量进行

归一化处理。

4. Decoder Layer

同样，Transformer模型的Decoder Layer也采用了类似的结

构。其公式为：

$$ DecoderLayer(x,

enc)=MultiHeadNorm(x+MultiHead(x,x,x))MultiHeadNorm(x+Multi

Head(x,enc,enc))FFNNorm(x+FFN(x)) $$

其中，$x$为Decoder的输入，$enc$为Encoder的输出，第一

个$MultiHead$表示Decoder自注意力机制，第二个$MultiHead$表

示Decoder与Encoder的注意力机制。

5. Transformer模型

- 2 -

最后是整个Transformer模型。其公式为：

$$ Transformer(enc, dec)=Decoder(Encoder(enc), dec) $$

其中，$enc$为Encoder的输入，$dec$为Decoder的输入。

Transformer模型的整个过程可以看作是对输入进行多次Encoder

和Decoder的迭代。

以上就是Transformer模型的公式详解，它们构成了

Transformer模型的核心组件。在自然语言处理中，使用这些组件

可以构建出很多优秀的模型，如BERT、GPT等。

- 3 -

本文标签：模型注意力机制公式输入

版权声明：本文标题：transformer模型公式详解内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.roclinux.cn/p/1711601327a601795.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

BIM信息化综合管理运营平台、BIM模型、数据首页、工单管理、建设建筑、工单信息、设备管理、工地、设备台账、运维标准、巡检管理、巡检计划、巡检任务、维保管理、能耗管理、3d模型、文档管理、工作日报

编程

3月前

BIM模型、数据首页、工单管理（统计报表、工单信息）、设备管理（设备系统、设备台账、运维标准）、巡检管理（巡检计划、巡检任务&am

震撼，支持多模态模型的ChatGPT 4.0发布了

编程

3月前

最近几个月，互联网和科技圈几乎ChatGPT刷屏了，各种关于ChatGPT的概念和应用的帖子也是围绕在周围。当去年年底ChatGPT发布的那几天，ChatGPT确实震撼到了所

【AIGC】Visual ChatGPT 视觉模型深度解析

编程

3月前

欢迎关注【youcans的AGI学习笔记】原创作品【AIGC】Visual ChatGPT 视觉模型深度解析 1. 【Visual- ChatGPT】火热来袭2. 【Visual-GPT】操作实例2.1 处理流程2.2 操作实例 3. 【

王炸！微软发布Visual ChatGPT：视觉模型加持ChatGPT实现丝滑聊天

编程

3月前

近来，AI领域迎来各个领域的大突破，ChatGPT展现出强大的语言问答能力和推理能力，然而作为一个自然语言模型，它无法处理视觉信息。与此同时&

GitHub大模型优质资源整理

编程

3月前

LLM从入门到精通的开源课程地址 GitHub - mlabonnellm-course: Course to get into Large Language Models (LLMs) with roadmaps and Cola

【GitHub项目推荐--开源翻译模型】【转载】

编程

3月前

开源翻译模型--Seamless Seamless M4T 旨在提供高质量的翻译，使来自不同语言的人们能够轻松地通过语音和文本进行交流，支持 101 种语言用于语音输入、96 种文本语言输入输

国内大模型落地「狂飙」一年，各家厂商成绩如何？

编程

3月前

2024年国内大模型落地大比拼：百度第一。来源：AI科技评论 Gartner《2025 年十大战略技术趋势》中预测，到2028年至少有15%的日常工作决策将由代理型AI&a

一行代码解决PyTorch训练模型时突然出现的For debugging consider passing CUDA_LAUNCH_BLOCKING=1报错

编程

3月前

一、问题描述今天在调试模型的代码，然后代码一直运行得好好地，就突然出现了一下的错误： RuntimeError: CUDA error: invalid device or

【大模型】ChatGPT 数据分析与处理使用详解

编程

2月前

目录一、前言二、AI 大模型数据分析介绍 2.1 什么是AI数据分析 2.2 AI数据分析与传统数据分析对比 2.2.1 差异分析 2.2.2 优劣势对比 2.3 AI大模型工具数据分析应用场景三、AI大模型工具数据分析

使用page assist浏览器插件结合deepseek-r1 7b本地模型

编程

2月前

为本地部署的DeepSeek R1 7b模型安装Page Assist，可以按照以下步骤进行： 一、下载并安装Ollama‌ 首先，你需要下载并安装Ollama&

开源模型应用落地-LlamaIndex学习之旅-LLMs-集成LangChain（一）

编程

2月前

一、前言在这个充满创新与挑战的时代，人工智能正以前所未有的速度改变着我们的学习和生活方式。LlamaIndex 作为一款先进的人工智能技术，它以其卓越的性能和创新的功能，为学习者带来前所未有的机遇。我们将带你逐步探索 Llama

使用深度双向LSTM模型构造社区问答系统

编程

2月前

ChatGPT最新模型canvas是什么？

编程

2月前

一、什么是canvas？ 简单来说，是ChatGPT里一个内置的新交互体验，可以弹出页面以更好地辅助用户进行写作（writing&#xff09

制作一个类似ChatGPT的AI对话网站，模型能力使用ChatGPT

编程

2月前

要快速搭建一个类似ChatGPT的AI对话网站，并且使用类似ChatGPT的模型能力，可以考虑以下技术和工具： ### 1. **使用现有的AI模型平台** - **Open

Windows系统本地部署Ollama并实现远程访问本地大语言模型

编程

2月前

文章目录前言1. 运行Ollama2. 安装Open WebUI2.1 在Windows系统安装Docker2.2 使用Docker部署Open WebUI 3. 安装内网穿透工具4. 创建固定公网地址前言本文主要介绍如何在Wind

github最强Chatbox AI 模型桌面，支持 ChatGPT、Claude等主流模型，适用于 Win、Linux等，总结文档图片并互动，智能编程，AI实时联网搜索与查询，图片生成，科研写作等

编程

2月前

一、软件介绍（文末提供下载） Chatbox 是一个 AI 模型桌面客户端，支持 ChatGPT、Claude、Google Gemini、Ollama 等主流模型&

国内的AI大模型有可能超过ChatGPT吗？

编程

2月前

这是一个非常有前瞻性和现实意义的问题。要回答国内AI是否有可能超过ChatGPT，我们需要从多个方面来分析，包括技术基础、数据资源、应用场景、政策支持以及人才储备等。以下是对这一问题的详细探讨&a

DeepSeek与ChatGPT：AI语言模型的全面对决

编程

2月前

DeepSeek与ChatGPT：AI语言模型的全面对决引言：AI 语言模型的时代浪潮一、认识 DeepSeek 与 ChatGPT（一）DeepSe

大模型相关网站整理

编程

1月前

目录一：大模型开发网站 1. 开源模型平台 2. 私有化部署大模型 3. LangChain中文网 4. LangChain4j 5. 通过标准的OpenAI API 格式访问所有的大模型二：国内AI大模型应用盘点聊天

pytorch深度学习框架-训练模型时GPU占用率太低怎么办？如何尽量榨干我们的GPU性能？

编程

1月前

零、参考来源 torch | gpu 利用率低怎么办 | 犀牛的博客一、怎么正确地查看GPU运行状态（比如占用率）？ 1.1 任务管理器 Windows系统自带的任务管

发表评论

全部评论 0

暂无评论

Linux大棚 – 不忘初心的技术博客，浮躁时代的安静角落

transformer模型公式详解

更多相关文章

BIM信息化综合管理运营平台、BIM模型、数据首页、工单管理、建设建筑、工单信息、设备管理、工地、设备台账、运维标准、巡检管理、巡检计划、巡检任务、维保管理、能耗管理、3d模型、文档管理、工作日报

震撼，支持多模态模型的ChatGPT 4.0发布了

【AIGC】Visual ChatGPT 视觉模型深度解析

王炸！微软发布Visual ChatGPT：视觉模型加持ChatGPT实现丝滑聊天

GitHub大模型优质资源整理

【GitHub项目推荐--开源翻译模型】【转载】

国内大模型落地「狂飙」一年，各家厂商成绩如何？

一行代码解决PyTorch训练模型时突然出现的For debugging consider passing CUDA_LAUNCH_BLOCKING=1报错

【大模型】ChatGPT 数据分析与处理使用详解

使用page assist浏览器插件结合deepseek-r1 7b本地模型

开源模型应用落地-LlamaIndex学习之旅-LLMs-集成LangChain（一）

使用深度双向LSTM模型构造社区问答系统

ChatGPT最新模型canvas是什么？

制作一个类似ChatGPT的AI对话网站，模型能力使用ChatGPT

Windows系统本地部署Ollama并实现远程访问本地大语言模型

github最强Chatbox AI 模型桌面，支持 ChatGPT、Claude等主流模型，适用于 Win、Linux等，总结文档图片并互动，智能编程，AI实时联网搜索与查询，图片生成，科研写作等

国内的AI大模型有可能超过ChatGPT吗？

DeepSeek与ChatGPT：AI语言模型的全面对决

大模型相关网站整理

pytorch深度学习框架-训练模型时GPU占用率太低怎么办？如何尽量榨干我们的GPU性能？

发表评论

推荐文章

javascript add style remove style - Stack Overflow

javascript - Google map render issue after asynchronous AJAX call - Stack Overflow

java - Getting Jsoup to support dynamically generated html by JavaScript - Stack Overflow

javascript - How to hide tab panel in ext JS Sencha - Stack Overflow

javascript - Have text that clears when you click on it - Stack Overflow

热门文章

How to pass variables from PHP to Javascript using Ajax calls - Stack Overflow

java - AWS SNS Configuration Set - Stack Overflow

javascript - Adding 30 minutes to Date causes it to go back 30 minutes - Stack Overflow

javascript - restrict text input to a list of characters - Stack Overflow

javascript - Nested TouchableOpacity Parent onPress not working - Stack Overflow

android - How to remove the lower half padding of the button in flutter? - Stack Overflow

javascript - How to show Background rendering and Event background at a same time slot in Fullcalandar? - Stack Overflow

javascript - jQuery toggleClass with conditional - Stack Overflow

轻松查询电脑显存大小，两种方法任你选

javascript - Window object in PhantomJS - Stack Overflow

最新文章

javascript - How do I toggle the readonly attribute of all child element with jquery - Stack Overflow

javascript - Might it be possible to block an entire US state from accessing my site, using PHP? - Stack Overflow

c++ - Is dereferencing std::span::end always undefined? - Stack Overflow

javascript - Delay function execution if it has been called recently - Stack Overflow

javascript - Google Maps Autocomplete List - Stack Overflow

windows设置断电重启开机后自动输入锁屏密码登录

Windows系统设置开机默认开启数字小键盘

Windows11 开机自动同步时间（开机时间不更新问题）

windows配置开机自启动软件或脚本

【Redis】Windows设置Redis为开机自启动

Exploring the Finest Accommodations: A Comprehensive Guide to Ruston LA Hotels

The Enchanting Experience of ScaliniTella NYC: A Culinary Gem in the Heart of Manhattan

Exploring the Exquisite Aloft Chicago O'Hare: A Blend of Modern Luxury and Convenience

A Culinary Journey: Discovering the Finest Dining Experiences in Waco, TX

A Culinary Journey: Discovering the Finest Dining Experiences in Athens, GA