[THUDM/ChatGLM-6B]请问chatglm6b，glm10b和glm130b模型到底有哪里不同的

通过查看glm相关论文，我总结出了glm和glm130b的区别：	模型名	PE	归一化
chatglm	2D Positional Encoding	调整了顺序
glm130b	PoRE	DeepNorm

我主要还有以下两个问题： 1.请问是否还有我们有注意到的区别 2.chatglm论文中并没有提到如何调整残差和归一化的顺序，通过查看glm源码，我发现每次在注意力处理前后都会进行归一化，顺序是归一化 ---> 注意力处理 ---> 归一化 ---> 注意力处理 ---> 归一化。通常的Transformer模型中，好像没有第一个归一化操作，请问我理解的顺序是否正确呢？

Environment

- OS:
- Python:
- Transformers:
- PyTorch:
- CUDA Support (`python -c "import torch; print(torch.cuda.is_available())"`) :

ppppppppig

130B一般人就玩不动了，至少双A100

liaoweiguo

130B一般人就玩不动了，至少双A100

是啊，我这边主要想调研下，是否能够根据THUDM/FasterTransformer改进一份fastertransformer的代码，让fastertransformer能够支持跑GLM10B这些模型。所以前期得关注下GLM10B和GLM130B模型差别在哪里，差别大不大。

ppppppppig

6B,10B,130B是参数量为60亿、100亿、1300亿，一般来说参数量越多脑容量越大。是否+chat我理解是代表有没有经过中文QA和对话数据集的训练。

runzhi214

6B,10B,130B是参数量为60亿、100亿、1300亿，一般来说参数量越多脑容量越大。是否+chat我理解是代表有没有经过中文QA和对话数据集的训练。

是的，但是他们的模型结构也有调整，必须弄清楚调整了哪里，才能在FasterTransformer进行对应的调整。

ppppppppig

其他都没有放出来吧

liaoweiguo

6B,10B,130B是参数量为60亿、100亿、1300亿，一般来说参数量越多脑容量越大。是否+chat我理解是代表有没有经过中文QA和对话数据集的训练。

是的，但是他们的模型结构也有调整，必须弄清楚调整了哪里，才能在FasterTransformer进行对应的调整。

准备跟你做一样的事情；请问有一些进展了吗？

yudian0504

[THUDM/ChatGLM-6B]请问chatglm6b，glm10b和glm130b模型到底有哪里不同的

回答

相关问题