[THUDM/ChatGLM-6B][求助]如何进行人类反馈强化学习?

2024-05-10 589 views
8
目前的行为

好,我有一些对话数据,这些数据是打了分数的,我想问一下如何用我手上的数据进行“人类反馈强化学习”强度?我会尝试 P-Tuning v2,但更想尝试“人类反馈强化学习”的配置。谢谢!

预期行为

“人类反馈强化学习”的灵敏度的使用指南

重现步骤

不适用

环境
OS: Ubuntu 20.04
    Python: 3.8
    Transformers: 4.26.1
    PyTorch: 1.12
    CUDA Support: True
还要别的吗?

没有反应

回答

0

谢谢你的回馈,我看到这个medicalGPT很有参考价值。但是medicalGPT的读我显示的多轮对话数据微调方法是待办事项。 MedicalGPT 希望是 Q 和 A 的 GPT。我是想把 ChatGLM-6B 调节后还是聊天模型。

MedicalGPT中,RL(强化学习)数据集格式如下: json文件,每行一个样本,每个样本包含以下字段: {"instruction": "text1", "input": "text2", "output": " text3"}希望不支持多句对话的数据。

https://github.com/shibing624/MedicalGPT/wiki/%E8%AE%AD%E7%BB%83%E7%BB%86%E8%8A%82%E8%AF%B4%E6%98%8E

1

多轮很容易,前面加“问:xxxx\n 答:xxxx\n 问:xxxx\n 答:xxxx\n

4

参考它聊天输出的代码。

3

是这样子吗?

{“instruction”:“你是一个助理..老板的事..”,“input”:“老板问:今天有多少个会议”,“output”:“助理回答:你今天早上要3个开会” ”} {“说明”:“你是一个求职者..老板今天的事情..”,“输入”:“老板问:今天有多少个会议\n 求职者回答:你今天早上要开3个会\n老板问:第一个会是什么时间”,“输出”:“11时”}

还是分开?

{“instruction”:“你是一个助理..老板的事..”,“input”:“老板问:今天有多少个会议”,“output”:“助理回答:你今天早上要3个开会” ”} {“instruction”:“你是一个兼职..老板今天的事情..”,“input”:“老板问:第一个会是什么时间”,“output”:“11时”}

谢谢你的意见!

3

不是。麻烦看下它历史确定训练之后的代码,知道多轮对话如何推理的,就知道如何了。你发单指令配置的,是煽动的,跟多轮关系不大。

6

git首页有。

6

多轮很容易,前面加“问:xxxx\n 答:xxxx\n 问:xxxx\n 答:xxxx\n

不是样本仍然是指令输入输出三个字段只是指令是历史对话历史通过一定的模板[chatglm源代码中写了这个模板]拼起来并切割上最后一个提示句输出字段写上答案基本上应该是这个形式可以吗?

7

到底还是把多轮对话变成了单轮对话,没什么技巧。只是多轮对话包含历史信息而已,不知道我理解的对不对?@tomcat123a 另外想问一下,你说的那个给的首页是哪个项目给的首页?我在shibing64这个项目上确实没有多轮对话的例子,能否麻烦你指出一下具体位置