[THUDM/ChatGLM-6B]请问怎么构建属于自己的数据集,或者CLM可以训练的数据集

2024-06-12 686 views
5

自己按照官方提供的数据集格式,编写了十几条问答数据训练完成之后一点效果没有,想问问大家是怎么实现的

Environment
- OS:
- Python:
- Transformers:
- PyTorch:
- CUDA Support (`python -c "import torch; print(torch.cuda.is_available())"`) :

回答

2

步数不够。

8

请问步数不够是啥意思,是数据太少吗

0

步数不够。

请问步骤数不够是啥意思,是数据太少吗

6

步数不够。

请问步骤数不够是啥意思,是数据太少吗

这种类型的模型训练时,一般都是多少步后保存1次“存档”或者“成绩”到多少后,保存存档并退出训练。 使用时,载入“存档”的模型,然后进行推理。

可以理解为数据太少。

0

你好,我是AI小白,也正在研究这些。 求教,有啥官方的文档,可以指导我训练自己的模型。大概做成一个私有的数据集,公司内部数据。

8

步数不够。

请问步骤数不够是什么意思,是数据太少吗

这种类型的模型训练时,一般都是多少步后保存1次“保存档”或“成绩”到多少后,保存保存档并退出训练。进行推理 。

可以理解为数据太少。

好的,谢谢,请问目前有没有除了 ADGEN 数据集还有别的数据集可以跑的

3

你好,我是AI小白,也在研究这些。 求教,有什么官方的文档,可以指导我训练自己的模型。大概念做一个私有的数据集,公司满意。

我也刚接触,不是很清楚

2

@ysun 大家有办法创造自己的私有训练集吗?

6

我也是看到 @fireice009 的那个链接了,想着找时间试下,看看能否微调下数据集。 还没开始呢~~

5

就参考 ADGEN 的格式(一个 JSON 数组,每个记录包含至少一个 Q 字段和一个 A 字段,字段名可以自定义)做就行。但对数量还是有一定的要求。太少了肯定不行。

3

是的,如果能有自动从文本中生成准确的问答,将是更好的方法。

9

是的,如果能有自动从文本中生成准确的问答,将是更好的方法。

高质量的 问答 。还是得自己人员,人工。

很多类似 ChatGLM-6B 这样的模型是无商业许可的。特别针对与 openai 提供的服务有“竞争”的商业,是违反许可的。研究、体验是不违反。。。 原因是,用于模型训练的问答数据集的问题或者答案。是有 openai 的chatgpt生成的。模型训练完成后,在使用时是受到许可限制的。 所以, 有个dolly-v2-12b项目。就自己人工生成了数据集(人工洗稿),以此规避这一限制。

8

可参考#330中提到的方法。

6

怎么训练自己的模型,而不是微调? 建立私有数据集进行训练,针对特殊场景