[THUDM/ChatGLM-6B]请问chatglm6b,glm10b和glm130b模型到底有哪里不同的

2024-05-13 822 views
1
通过查看glm相关论文,我总结出了glm和glm130b的区别: 模型名 PE 归一化
chatglm 2D Positional Encoding 调整了顺序
glm130b PoRE DeepNorm

我主要还有以下两个问题: 1.请问是否还有我们有注意到的区别 2.chatglm论文中并没有提到如何调整残差和归一化的顺序,通过查看glm源码,我发现每次在注意力处理前后都会进行归一化,顺序是 归一化 ---> 注意力处理 ---> 归一化 ---> 注意力处理 ---> 归一化。通常的Transformer模型中,好像没有第一个归一化操作,请问我理解的顺序是否正确呢?

Environment
- OS:
- Python:
- Transformers:
- PyTorch:
- CUDA Support (`python -c "import torch; print(torch.cuda.is_available())"`) :

回答

7

130B一般人就玩不动了,至少双A100

1

130B一般人就玩不动了,至少双A100

是啊,我这边主要想调研下,是否能够根据THUDM/FasterTransformer改进一份fastertransformer的代码,让fastertransformer能够支持跑GLM10B这些模型。 所以前期得关注下GLM10B和GLM130B模型差别在哪里,差别大不大。

7

6B,10B,130B是参数量为60亿、100亿、1300亿,一般来说参数量越多脑容量越大。 是否+chat我理解是代表有没有经过中文QA和对话数据集的训练。

6

6B,10B,130B是参数量为60亿、100亿、1300亿,一般来说参数量越多脑容量越大。 是否+chat我理解是代表有没有经过中文QA和对话数据集的训练。

是的,但是他们的模型结构也有调整,必须弄清楚调整了哪里,才能在FasterTransformer进行对应的调整。

0

其他都没有放出来吧

2

6B,10B,130B是参数量为60亿、100亿、1300亿,一般来说参数量越多脑容量越大。 是否+chat我理解是代表有没有经过中文QA和对话数据集的训练。

是的,但是他们的模型结构也有调整,必须弄清楚调整了哪里,才能在FasterTransformer进行对应的调整。

准备跟你做一样的事情;请问有一些进展了吗?