[THUDM/ChatGLM-6B]我在做数据集-不知道多轮对话数据最终是不是这样的?

2024-05-20 673 views
0

# 想确认一下是不是这样的? {"prompt": "长城h3风扇不转。继电器好的。保险丝好的传感器新的风扇也新的这是为什么。就是继电器缺一个信号线", "response": "用电脑能读数据流吗?水温多少", "history": []} {"prompt": "95", "response": "上下水管温差怎么样啊?空气是不是都排干净了呢?", "history": [["长城h3风扇不转。继电器好的。保险丝好的传感器新的风扇也新的这是为什么。就是继电器缺一个信号线", "用电脑能读数据流吗?水温多少"]]} {"prompt": "是的。上下水管都好的", "response": "那就要检查线路了,一般风扇继电器是由电脑控制吸合的,如果电路存在断路,或者电脑坏了的话会出现继电器不吸合的情况!", "history": [["长城h3风扇不转。继电器好的。保险丝好的传感器新的风扇也新的这是为什么。就是继电器缺一个信号线", "用电脑能读数据流吗?水温多少"], ["95", "上下水管温差怎么样啊?空气是不是都排干净了呢?"]]}

{"prompt": "长城h3风扇不转。继电器好的。保险丝好的传感器新的风扇也新的这是为什么。就是继电器缺一个信号线22222222", "response": "用电脑能读数据流吗?水温多少22222222", "history": []} {"prompt": "95", "response": "上下水管温差怎么样啊?空气是不是都排干净了呢?22222222", "history": [["长城h3风扇不转。继电器好的。保险丝好的传感器新的风扇也新的这是为什么。就是继电器缺一个信号线22222222", "用电脑能读数据流吗?水温多少22222222"]]} {"prompt": "是的。上下水管都好的22222222", "response": "那就要检查线路了,一般风扇继电器是由电脑控制吸合的,如果电路存在断路,或者电脑坏了的话会出现继电器不吸合的情况!22222222", "history": [["长城h3风扇不转。继电器好的。保险丝好的传感器新的风扇也新的这是为什么。就是继电器缺一个信号线22222222", "用电脑能读数据流吗?水温多少22222222"], ["95", "上下水管温差怎么样啊?空气是不是都排干净了呢?22222222"]]}

{"prompt": "长城h3风扇不转。继电器好的。保险丝好的传感器新的风扇也新的这是为什么。就是继电器缺一个信号线33333333", "response": "用电脑能读数据流吗?水温多少33333333", "history": []} {"prompt": "95", "response": "上下水管温差怎么样啊?空气是不是都排干净了呢?33333333", "history": [["长城h3风扇不转。继电器好的。保险丝好的传感器新的风扇也新的这是为什么。就是继电器缺一个信号线33333333", "用电脑能读数据流吗?水温多少33333333"]]} {"prompt": "是的。上下水管都好的33333333", "response": "那就要检查线路了,一般风扇继电器是由电脑控制吸合的,如果电路存在断路,或者电脑坏了的话会出现继电器不吸合的情况!33333333", "history": [["长城h3风扇不转。继电器好的。保险丝好的传感器新的风扇也新的这是为什么。就是继电器缺一个信号线33333333", "用电脑能读数据流吗?水温多少33333333"], ["95", "上下水管温差怎么样啊?空气是不是都排干净了呢?33333333"]]}

{"prompt": "长城h3风扇不转。继电器好的。保险丝好的传感器新的风扇也新的这是为什么。就是继电器缺一个信号线444444444", "response": "用电脑能读数据流吗?水温多少444444444", "history": []} {"prompt": "95", "response": "上下水管温差怎么样啊?空气是不是都排干净了呢?444444444", "history": [["长城h3风扇不转。继电器好的。保险丝好的传感器新的风扇也新的这是为什么。就是继电器缺一个信号线444444444", "用电脑能读数据流吗?水温多少444444444"]]} {"prompt": "是的。上下水管都好的444444444", "response": "那就要检查线路了,一般风扇继电器是由电脑控制吸合的,如果电路存在断路,或者电脑坏了的话会出现继电器不吸合的情况!444444444", "history": [["长城h3风扇不转。继电器好的。保险丝好的传感器新的风扇也新的这是为什么。就是继电器缺一个信号线444444444", "用电脑能读数据流吗?水温多少444444444"], ["95", "上下水管温差怎么样啊?空气是不是都排干净了呢?444444444"]]}

回答

2

为什么要加上重复的数字?

1

为什么要加上重复的数字?

我没例子,主要是看格式是对的吧? 刚写了个代码生成如下:

# {"prompt": "病人:你叫什么名字", "summary": "医生:我叫小王", "history": []}

{"prompt": "病人:1+1=?", "summary": "医生:等于二", "history": []} {"prompt": "病人:不是3吗?", "summary": "医生:不是哦,别搞错了", "history": [["病人:1+1=?", "医生:等于二"]]} {"prompt": "病人:好的谢", "summary": "医生:不用客气", "history": [["病人:1+1=?", "医生:等于二"], ["病人:不是3吗?", "医生:不是哦,别搞错了"]]}

{"prompt": "病人:今天星期八", "summary": "医生:你该吃药了", "history": []} {"prompt": "病人:刚吃完", "summary": "医生:再来点", "history": [["病人:今天星期八", "医生:你该吃药了"]]} {"prompt": "病人:不要", "summary": "医生:要的", "history": [["病人:今天星期八", "医生:你该吃药了"], ["病人:刚吃完", "医生:再来点"]]}

应该是没有问题了,生成代码如下:大家可以直接拿来用了:

图片

生成代码,下载直接拿去用.txt

0

是对的

5

history 为空,训练行吗?不搞多轮 TypeError: Couldn't cast array of type list to null 这个报错啥原因

5

应该应该是可以的吧,我的理解是 ”当所有的history 为空 “ 就是普通的问答,单轮对话,可替代“ADGEN 数据集” 来使用。

还有有两个格式,哪底是用哪一种才是对的如下:

图片

按官方说的是第二种,试一下看看是哪种?可以看看报错是不是格式的问题? 我还没有试过,在整机器中.......~~

还有个问题就是你用的是多轮对话方式,训练用的是不是这个? bash train_chat.sh

1

请问一下这里面一定要设定用户吗,就是有”病人“, “医生”这种字眼,模型回复时候会不会也说出来”病人“”医生“ 这种