Daily Plan

更新: 5/3/2025 字数: 0 字时长: 0 分钟

#todo

Daily Study

更新: 5/3/2025 字数: 0 字时长: 0 分钟

自注意力机制：它的核心功能是让模型在处理序列中的某个元素时，能够动态计算该元素与序列中其他元素的关联程度（即 “注意力权重”），从而聚焦于对当前元素最相关的信息，忽略无关信息。

每一层的功能是什么 mask矩阵怎么算出来的 Q、K、V矩阵怎么算出来的 lora微调具体参数设置学习率批次大小优化器超参数

更新: 5/3/2025 字数: 0 字时长: 0 分钟