Skip to content

Daily Plan

更新: 5/3/2025 字数: 0 字 时长: 0 分钟

#todo

  • [ ]
  • [ ]

Daily Study

更新: 5/3/2025 字数: 0 字 时长: 0 分钟

Transformer学习

主要介绍结构:Transformer模型详解(图解最完整版) - 知乎 待看:Transformer 架构全解析:从 Attention 机制到编码器 - 解码器,一文吃透核心原理 - 知乎

每一层的功能

自注意力机制:它的核心功能是让模型在处理序列中的某个元素时,能够动态计算该元素与序列中其他元素的关联程度(即 “注意力权重”),从而聚焦于对当前元素最相关的信息,忽略无关信息。

问题

每一层的功能是什么 mask矩阵怎么算出来的 Q、K、V矩阵怎么算出来的 lora微调具体参数设置 学习率 批次大小 优化器 超参数

Daily Problem

更新: 5/3/2025 字数: 0 字 时长: 0 分钟

菜就多练

本站访客数 人次 本站总访问量