通过查看glm相关论文,我总结出了glm和glm130b的区别: | 模型名 | PE | 归一化 |
---|---|---|---|
chatglm | 2D Positional Encoding | 调整了顺序 | |
glm130b | PoRE | DeepNorm |
我主要还有以下两个问题: 1.请问是否还有我们有注意到的区别 2.chatglm论文中并没有提到如何调整残差和归一化的顺序,通过查看glm源码,我发现每次在注意力处理前后都会进行归一化,顺序是 归一化 ---> 注意力处理 ---> 归一化 ---> 注意力处理 ---> 归一化。通常的Transformer模型中,好像没有第一个归一化操作,请问我理解的顺序是否正确呢?
Environment- OS:
- Python:
- Transformers:
- PyTorch:
- CUDA Support (`python -c "import torch; print(torch.cuda.is_available())"`) :