[THUDM/ChatGLM-6B]请问怎么构建属于自己的数据集，或者CLM可以训练的数据集

自己按照官方提供的数据集格式，编写了十几条问答数据训练完成之后一点效果没有，想问问大家是怎么实现的

Environment

- OS:
- Python:
- Transformers:
- PyTorch:
- CUDA Support (`python -c "import torch; print(torch.cuda.is_available())"`) :

PopRangR

步数不够。

cywjava

请问步数不够是啥意思，是数据太少吗

PopRangR

步数不够。

请问步骤数不够是啥意思，是数据太少吗

PopRangR

步数不够。

请问步骤数不够是啥意思，是数据太少吗

这种类型的模型训练时，一般都是多少步后保存1次“存档”或者“成绩”到多少后，保存存档并退出训练。使用时，载入“存档”的模型，然后进行推理。

可以理解为数据太少。

mingyue0094

你好，我是AI小白，也正在研究这些。求教，有啥官方的文档，可以指导我训练自己的模型。大概做成一个私有的数据集，公司内部数据。

ysun

步数不够。

请问步骤数不够是什么意思，是数据太少吗

这种类型的模型训练时，一般都是多少步后保存1次“保存档”或“成绩”到多少后，保存保存档并退出训练。进行推理。

可以理解为数据太少。

好的，谢谢，请问目前有没有除了 ADGEN 数据集还有别的数据集可以跑的

PopRangR

你好，我是AI小白，也在研究这些。求教，有什么官方的文档，可以指导我训练自己的模型。大概念做一个私有的数据集，公司满意。

我也刚接触，不是很清楚

PopRangR

你好，我是AI小白，也正在研究这些。求教，有啥官方的文档，可以指导我训练自己的模型。大概做成一个私有的数据集，公司内部数据。

https://github.com/THUDM/ChatGLM-6B/tree/main/ptuning

fireice009

@ysun 大家有办法创造自己的私有训练集吗？

eeric

我也是看到 @fireice009 的那个链接了，想着找时间试下，看看能否微调下数据集。还没开始呢~~

ysun

就参考 ADGEN 的格式（一个 JSON 数组，每个记录包含至少一个 Q 字段和一个 A 字段，字段名可以自定义）做就行。但对数量还是有一定的要求。太少了肯定不行。

lucifer1004

是的，如果能有自动从文本中生成准确的问答，将是更好的方法。

eeric

是的，如果能有自动从文本中生成准确的问答，将是更好的方法。

高质量的问答。还是得自己人员，人工。

很多类似 ChatGLM-6B 这样的模型是无商业许可的。特别针对与 openai 提供的服务有“竞争”的商业，是违反许可的。研究、体验是不违反。。。原因是，用于模型训练的问答数据集的问题或者答案。是有 openai 的chatgpt生成的。模型训练完成后，在使用时是受到许可限制的。所以，有个dolly-v2-12b项目。就自己人工生成了数据集(人工洗稿)，以此规避这一限制。

mingyue0094

可参考#330中提到的方法。

zhangch9

怎么训练自己的模型，而不是微调？建立私有数据集进行训练，针对特殊场景

SERE026

[THUDM/ChatGLM-6B]请问怎么构建属于自己的数据集，或者CLM可以训练的数据集

回答

相关问题