网站建设的设备优定软件网站建设

张小明 2026/1/19 19:17:17
网站建设的设备,优定软件网站建设,做中东服装有什么网站,常州网站建设代理商锋哥原创的Transformer 大语言模型#xff08;LLM#xff09;基石视频教程#xff1a; https://www.bilibili.com/video/BV1X92pBqEhV 课程介绍 本课程主要讲解Transformer简介#xff0c;Transformer架构介绍#xff0c;Transformer架构详解#xff0c;包括输入层LLM基石视频教程https://www.bilibili.com/video/BV1X92pBqEhV课程介绍本课程主要讲解Transformer简介Transformer架构介绍Transformer架构详解包括输入层位置编码多头注意力机制前馈神经网络编码器层解码器层输出层以及Transformer Pytorch2内置实现Transformer基于PyTorch2手写实现等知识。Transformer 大语言模型LLM基石 - Transformer PyTorch2内置实现PyTorch的Transformer实现主要封装在torch.nn中核心是四个相互关联的类它们共同构成了一个完整的编码器-解码器架构。为了便于你理解各部分的关系我将它们梳理成了以下结构图下面是每个组件的关键说明nn.TransformerEncoderLayer这是最基础的编码单元。它包含一个多头自注意力机制和一个前馈神经网络每个子层后都接有残差连接和层归一化。nn.TransformerEncoder它的作用是将多个TransformerEncoderLayer堆叠起来上一层的输出作为下一层的输入。nn.TransformerDecoderLayer比编码层复杂它包含三个核心子模块掩码多头自注意力防止看到未来信息、多头交叉注意力关注编码器输出、前馈神经网络。nn.TransformerDecoder与编码器类似负责堆叠多个TransformerDecoderLayer。顶层nn.Transformer类这是你通常直接调用的类。在初始化时你需要传入定义好的编码器和解码器或指定层数由内部自动创建并通过forward方法接收源序列和目标序列进行计算。我们看一个应用示例import torch import torch.nn as nn import torch.optim as optim import numpy as np import random # 随机种子以确保可重复性 torch.manual_seed(0) np.random.seed(0) random.seed(0) # 简单的数据集输入序列和目标序列 input_sequences [ [1, 2, 3, 4], [1, 3, 2, 4], [2, 1, 4, 3], [4, 3, 2, 1], ] target_sequences [ [4, 3, 2, 1], [4, 2, 3, 1], [1, 4, 3, 2], [2, 1, 3, 4], ] # 超参数 num_epochs 1000 learning_rate 0.01 num_heads 2 # 多头注意力的头数 num_layers 2 # 编码解码器的层数 input_dim 5 # 最大词汇表大小 1 output_dim 5 # 最大词汇表大小 1 seq_length 4 # 定义Transformer模型 class TransformerModel(nn.Module): def __init__(self, input_dim, output_dim, seq_length, num_heads, num_layers): super(TransformerModel, self).__init__() self.embedding nn.Embedding(input_dim, 16) self.transformer nn.Transformer(d_model16, nheadnum_heads, num_encoder_layersnum_layers, num_decoder_layersnum_layers) self.fc_out nn.Linear(16, output_dim) def forward(self, src, tgt): src self.embedding(src) # [batch_size, seq_length, embedding_dim] tgt self.embedding(tgt) # [batch_size, seq_length, embedding_dim] # 转置为[seq_length, batch_size, embedding_dim] src src.permute(1, 0, 2) tgt tgt.permute(1, 0, 2) output self.transformer(src, tgt) # [seq_length, batch_size, embedding_dim] output output.permute(1, 0, 2) # [batch_size, seq_length, embedding_dim] return self.fc_out(output) # 数据准备 input_tensor torch.tensor(input_sequences, dtypetorch.long) target_tensor torch.tensor(target_sequences, dtypetorch.long) # 模型实例化 model TransformerModel(input_dim, output_dim, seq_length, num_heads, num_layers) criterion nn.CrossEntropyLoss(ignore_index0) # 创建了一个交叉熵损失函数实例 optimizer optim.Adam(model.parameters(), lrlearning_rate) # 创建一个Adam优化器实例 # 训练循环 for epoch in range(num_epochs): model.train() # 进入训练模式 optimizer.zero_grad() # 清空梯度 output model(input_tensor, target_tensor[:, :-1]) # 输入目标序列的前n-1个 output output.reshape(-1, output_dim) # [batch_size * (seq_length - 1), output_dim] target target_tensor[:, 1:].reshape(-1) # 目标序列去掉第一个元素并reshape loss criterion(output, target) # 计算损失 loss.backward() # 反向传播 optimizer.step() # 更新参数 if (epoch 1) % 100 0: print(fEpoch [{epoch 1}/{num_epochs}], Loss: {loss.item():.4f}) # 模型评估 def evaluate(model, input_seq): model.eval() input_tensor torch.tensor(input_seq, dtypetorch.long).unsqueeze(0) # 添加batch维 tgt torch.zeros((1, seq_length), dtypetorch.long) # 初始化目标序列 output [] for _ in range(seq_length): with torch.no_grad(): pred model(input_tensor, tgt) pred_token pred[:, -1, :].argmax(dim-1) # 预测最后一个token output.append(pred_token.item()) tgt[0, -1] pred_token.item() # 更新目标序列 return output # 测试模型 test_input [1, 2, 3, 4] predicted_output evaluate(model, test_input) print(fInput Sequence: {test_input}, Predicted Output: {predicted_output})运行结果
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

佛山网站建设wantsun太原网站的公司

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

张小明 2026/1/17 22:52:45 网站建设

宾馆网站制作企业网站的建设多少钱

还在为iPhone 7无法享受完整系统权限而烦恼吗?本教程将带你一步步完成A10设备的palera1n越狱,释放设备全部潜能!作为一款基于checkra1n技术的现代化越狱工具,palera1n为iOS 15.0系统带来了稳定可靠的越狱方案。 【免费下载链接】p…

张小明 2026/1/17 22:52:45 网站建设

网站上怎么做弹目提醒第一ppt网ppt模板下载

最近很多小伙伴说在使用电脑的时候会出现一些系统方面的问题。 今天给大家推荐两个神器软件,一键可以解决这些问题。有需要的小伙伴可以下载收藏。 第一款:4DDiG DLL Fixer 有时候使用电脑会出现过这样的情况,系统会提示你缺少DLL的软件。…

张小明 2026/1/17 22:52:49 网站建设

iframe 一直网站底部wordpress 文档导入数据库

FaceFusion在文化遗产数字化保护中的应用探索 在敦煌莫高窟幽深的洞窟中,一尊千年壁画上的菩萨低眉含笑,颜料斑驳、轮廓模糊。千年来,人们只能凭想象揣摩其神态。如今,借助人工智能技术,这尊静止的画像正被赋予呼吸与表…

张小明 2026/1/17 22:52:48 网站建设

万网代备案系统seo排名优化点击软件有哪些

在嵌入式Linux开发领域,Allwinner(全志) 和 sunxi 是两个紧密关联但含义不同的关键概念。我将从技术底层为你厘清二者的区别与联系,并解析其在开发中的作用。 一、核心概念解析 1. Allwinner(全志科技) 定…

张小明 2026/1/17 22:52:49 网站建设

成都科技网站建设找小说网站开发实录

目录已开发项目效果实现截图开发技术系统开发工具:核心代码参考示例1.建立用户稀疏矩阵,用于用户相似度计算【相似度矩阵】2.计算目标用户与其他用户的相似度系统测试总结源码文档获取/同行可拿货,招校园代理 :文章底部获取博主联系方式&…

张小明 2026/1/17 22:52:47 网站建设