首页技术日记正文内容

multi-head self-attention 公式

技术日记

更新时间：2025-05-05 18:05:13 38

admin 管理员组

文章数量: 1086019

2024年3月28日发(作者：表单验证javascript)

multi-head self-attention 公式

多头自注意力（Multi-Head Self-Attention）是自然语言处理领域，特别是在

Transformer架构中的一个核心组件。其主要思想是将输入序列映射到多个不同的表示

子空间，并在每个子空间中独立地计算自注意力，然后将这些注意力输出拼接起来，进

行一次线性变换得到最终的输出。

具体来说，给定输入序列 (X in mathbb{R}^{n times d})，其中 (n) 是序列长度，

(d) 是输入维度。首先，通过线性层将输入映射到查询（Query）、键（Key）和值（Value）

三个维度上，即：

(Q = XW_Q, quad K = XW_K, quad V = XW_V)

其中 (W_Q, W_K, W_V in mathbb{R}^{d times d_k}) 是可学习的权重矩阵，(d_k)

是查询、键和值的维度。

接下来，将查询、键和值分割成 (h) 个头，每个头的维度为 (frac{d_k}{h})。对于每

个头，独立地计算自注意力分数：

(text{Attention}(Q_i, K_i, V_i) = text{softmax}left(frac{Q_i

K_i^T}{sqrt{d_k/h}}right)V_i)

其中 (Q_i, K_i, V_i) 分别表示第 (i) 个头的查询、键和值。

最后，将每个头的注意力输出拼接起来，并通过一个线性层得到最终的输出：

(text{MultiHead}(Q, K, V) = text{Concat}(text{head}_1, ldots, text{head}_h)W^O)

其中 (text{head}_i = text{Attention}(Q_i, K_i, V_i))，(W^O in mathbb{R}^{d_k

times d}) 是可学习的权重矩阵。

通过多头自注意力机制，模型能够同时关注来自不同位置的信息，并且能够在不同

的表示子空间中捕获不同的上下文信息，从而增强模型的表示能力。

本文标签：输入注意力模型序列输出

版权声明：本文标题：multi-head self-attention 公式内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.roclinux.cn/p/1711601343a601796.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

minicpm-v_pytorch多模态OCR大模型

编程

3月前

MiniCPM-V MiniCPM-V是面向图文理解的端侧多模态大模型系列。该系列模型接受图像和文本输入，并提供高质量的文本输出。论文 MiniCPM: Unveiling the Potential of S

2025 年 AI 十大展望：软件市场扩大 10 倍、系统比模型更重要、OpenAI 先发优势消退

编程

3月前

2025 年 AI 十大展望：软件市场扩大 10 倍、系统比模型更重要、OpenAI 先发优势消退 OneFlow OneFlow 2025年01月12日 12:51 北京尽管有 Scaling Law 放缓这样的

cg查看器html,王者荣耀3d模型查看器网站

编程

3月前

回答：王者荣耀怎么上百星王者？ 阵容很重要小编以前在铂金及以下的段位打排位赛时，队友之间没有默契，很多人选择英雄很任性，小编以前

【Docker】部署 copilot-gpt4-service，将 Github Copilot 转换为 GPT-4 模型进行对话。

编程

3月前

引言利用 copilot-gpt4-service 服务，将 Github Copilot 转换为 ChatGPT，将使得你可以通过 ChatGPT-Next-Web 或者其他第三方客户端&a

【gpt_academic】最优秀的学术大模型应用（github 60.8k⭐）

编程

3月前

GPT 学术优化 (GPT Academic)功能（⭐ 近期新增功能）描述⭐接入新模型百度千帆与文心一言, 通义千问Qwen，上海AI-Lab书生，

AI模型：windows本地运行下载安装ollama运行llama3、llama2、Google CodeGemma、gemma等可离线运行数据模型【自留记录】

编程

3月前

AI模型：windows本地运行下载安装ollama运行llama3、llama2、Google CodeGemma、gemma等可离线运行数据模型【自留记录】 CodeGemma 没法直接运行&#xff0c

51c大模型~合集107

编程

3月前

我自己的原文哦~ https:blog.51ctowhaosoft13140661 #浦语大模型升级，突破思维密度，4T数据训出高性能模型 “尺度定律”之下&#xff0

Ps：颜色模型、色彩空间及配置文件

编程

3月前

颜色模型、色彩空间和配置文件是处理颜色的核心概念。它们虽然互相关联，但各自有不同的功能和作用。通过理解这些概念及其关系，Photoshop 用户可以更好地管理和优化图像处理流程&#xff

大模型本地化部署1-Ollama安装（Windows）

编程

2月前

大模型本地化部署1-Ollama安装（Windows） 1、下载Ollama安装包2、安装Ollama3、设置模型存放目录4、查看Ollama支持的模型5、模型安装6、查看已安装的模型列表7、运行

OpenAI掀桌子！免费版ChatGPT，提供o3-mini模型！

编程

2月前

逆天免费用今天凌晨，OpenAI联合创始人兼首席执行官Sam Altman宣布了一个大消息——免费版ChatGPT，将提供o3-mini模型！ 网页们纷纷不淡定了看来

银行家算法（安全序列）

编程

2月前

前言要解释银行家算法，必须先解释操作系统安全状态和不安全状态。 1）安全状态：如果存在一个由系统中所有进程构成的安全序列P1，…&#xff

在Office里面无缝使用任何一家AI大模型，免费的！

编程

2月前

昨天一个朋友说他在Word里面，用了一个插件，可以在右侧和AI对话，然后把AI生成的内容载入到左边的文档中。我当时心理的想法：我这是穿越了吗&

笔记本电脑本地部署ollama大模型（显存不足调用CUDA Unified Memory方法）

编程

2月前

软硬件：win11,NVIDIA GeForce RTX 3050 显存4g 一.ollama模型最低要求 1. Llama 3.1 (8B) 模型 GPU: 至少需要 1 张具有 16 GB 显存的 GPU&a

【Docker】快速部署 copilot-gpt4-service：将 Github Copilot 转换为 GPT-4 模型进行对话

编程

2月前

【Docker】快速部署 copilot-gpt4-service：将 Github Copilot 转换为 GPT-4 模型进行对话引言利用 copilot-gpt4-service 服务&#xff0

Windows安装千问qwen2.5大模型

编程

2月前

ollama ollama是一个简明易用的本地大模型运行框架,只需一条命令即可在本地跑大模型。开源项目，专注于开发和部署先进的大型语言模型（LLM） 官网&#xff1

Windows本地部署DeepSeek-R1大模型并使用web界面远程交互

编程

1月前

文章目录前言1. 安装Ollama2. 安装DeepSeek-r1模型3. 安装图形化界面3.1 Windows系统安装Docker3.2 Docker部署Open WebUI3.3 添加Deepseek模型 4. 安装内网穿透工具5.

在windows11本地部署大模型的记录（OLLAMA、AnythingLLM）

编程

1月前

前言本文仅为个人实践记录，非专业领域，有参考前辈们的操作指南。如有谬误还请海涵。本次记录的目标包括： 1.安装并能够本地部署大模型（如llama3

AI大模型 DeepSeek VS ChatGPT VS Claude：分别适合什么场景使用？（理论篇）

编程

1月前

AI大模型 DeepSeek VS ChatGPT VS Claude：分别适合什么场景使用？ 人工智能大模型正以惊人的速度渗透到各行各业，但面对市场上琳琅满目的模型&am

Windows（Win10、Win11）本地部署开源大模型保姆级教程

编程

1月前

目录前言1.安装ollama2.安装大模型3.安装HyperV4.安装Docker5.安装聊天界面6.总结点我去AIGIS公众号查看本文本期教程用到的所有安装包已上传到百度网盘链接：https:pan.ba

发表评论

全部评论 0

暂无评论

Linux大棚 – 不忘初心的技术博客，浮躁时代的安静角落

multi-head self-attention 公式

更多相关文章

minicpm-v_pytorch多模态OCR大模型

2025 年 AI 十大展望：软件市场扩大 10 倍、系统比模型更重要、OpenAI 先发优势消退

cg查看器html,王者荣耀3d模型查看器网站

【Docker】部署 copilot-gpt4-service，将 Github Copilot 转换为 GPT-4 模型进行对话。

【gpt_academic】最优秀的学术大模型应用（github 60.8k⭐）

AI模型：windows本地运行下载安装ollama运行llama3、llama2、Google CodeGemma、gemma等可离线运行数据模型【自留记录】

51c大模型~合集107

Ps：颜色模型、色彩空间及配置文件

大模型本地化部署1-Ollama安装（Windows）

OpenAI掀桌子！免费版ChatGPT，提供o3-mini模型！

银行家算法（安全序列）

在Office里面无缝使用任何一家AI大模型，免费的！

笔记本电脑本地部署ollama大模型（显存不足调用CUDA Unified Memory方法）

【Docker】快速部署 copilot-gpt4-service：将 Github Copilot 转换为 GPT-4 模型进行对话

Windows安装千问qwen2.5大模型

Windows本地部署DeepSeek-R1大模型并使用web界面远程交互

在windows11本地部署大模型的记录（OLLAMA、AnythingLLM）

最新-DeepSeek模型安装Page Assist浏览器插件实现Web UI界面

AI大模型 DeepSeek VS ChatGPT VS Claude：分别适合什么场景使用？（理论篇）

Windows（Win10、Win11）本地部署开源大模型保姆级教程

发表评论

推荐文章

html - Modify HTTP response header with (Client-side) Javascript - Stack Overflow

rust - Huffman classical and canonical version - Stack Overflow

r - names_pattern in tidyr pivot_longer for multiple variables nested in the column names - Stack Overflow

javascript - write or delete string in textarea using jodit editor - Stack Overflow

firebase - Handling CORS origin sites with wildcard in url - Stack Overflow

热门文章

javascript - How to get an array of elements (buttons) based on aria-label in Playwright with locator.evaluateAll()? - Stack Ove

javascript - HTML5 Content Editable paragraph after list - Stack Overflow

javascript - Get the pasted content on document on paste event - Stack Overflow

javascript - Japanese Regex for Numbers - Stack Overflow

javascript - Angular 2 - Cannot instantiate cyclic dependency - Stack Overflow

win10控制面板快捷键_Windows Update在哪 Win10自动更新关闭方法【详解】

html - Javascript not loading in browser - Stack Overflow

hide and display a div using javascript in ASP.NET - Stack Overflow

How to unhide a hidden html &lt;p&gt; tag element using JavaScript? - Stack Overflow

vue.js - tauri TypeError: window is not a function in tray app - Stack Overflow

最新文章

javascript - How do I toggle the readonly attribute of all child element with jquery - Stack Overflow

javascript - Might it be possible to block an entire US state from accessing my site, using PHP? - Stack Overflow

c++ - Is dereferencing std::span::end always undefined? - Stack Overflow

javascript - Delay function execution if it has been called recently - Stack Overflow

javascript - Google Maps Autocomplete List - Stack Overflow

windows设置断电重启开机后自动输入锁屏密码登录

Windows系统设置开机默认开启数字小键盘

Windows11 开机自动同步时间（开机时间不更新问题）

windows配置开机自启动软件或脚本

【Redis】Windows设置Redis为开机自启动

Exploring the Finest Accommodations: A Comprehensive Guide to Ruston LA Hotels

The Enchanting Experience of ScaliniTella NYC: A Culinary Gem in the Heart of Manhattan

Exploring the Exquisite Aloft Chicago O'Hare: A Blend of Modern Luxury and Convenience

A Culinary Journey: Discovering the Finest Dining Experiences in Waco, TX

A Culinary Journey: Discovering the Finest Dining Experiences in Athens, GA

How to unhide a hidden html <p> tag element using JavaScript? - Stack Overflow