[THUDM/ChatGLM-6B][求助]如何进行人类反馈强化学习？

目前的行为

好，我有一些对话数据，这些数据是打了分数的，我想问一下如何用我手上的数据进行“人类反馈强化学习”强度？我会尝试 P-Tuning v2，但更想尝试“人类反馈强化学习”的配置。谢谢！

预期行为

“人类反馈强化学习”的灵敏度的使用指南

重现步骤

不适用

环境

OS: Ubuntu 20.04
    Python: 3.8
    Transformers: 4.26.1
    PyTorch: 1.12
    CUDA Support: True

还要别的吗？

没有反应

raymond00000

https://github.com/shibing624/MedicalGPT 参考这个项目，预训练，配置参数，rm模型训练，ppo都有现成的。

tomcat123a

谢谢你的回馈，我看到这个medicalGPT很有参考价值。但是medicalGPT的读我显示的多轮对话数据微调方法是待办事项。 MedicalGPT 希望是 Q 和 A 的 GPT。我是想把 ChatGLM-6B 调节后还是聊天模型。

MedicalGPT中，RL（强化学习）数据集格式如下： json文件，每行一个样本，每个样本包含以下字段： {"instruction": "text1", "input": "text2", "output": " text3"}希望不支持多句对话的数据。

https://github.com/shibing624/MedicalGPT/wiki/%E8%AE%AD%E7%BB%83%E7%BB%86%E8%8A%82%E8%AF%B4%E6%98%8E

raymond00000

多轮很容易，前面加“问：xxxx\n 答：xxxx\n 问：xxxx\n 答：xxxx\n

tomcat123a

参考它聊天输出的代码。

tomcat123a

是这样子吗？

{“instruction”：“你是一个助理..老板的事..”，“input”：“老板问：今天有多少个会议”，“output”：“助理回答：你今天早上要3个开会” ”} {“说明”：“你是一个求职者..老板今天的事情..”，“输入”：“老板问：今天有多少个会议\n 求职者回答：你今天早上要开3个会\n老板问：第一个会是什么时间”，“输出”：“11时”}

还是分开？

{“instruction”：“你是一个助理..老板的事..”，“input”：“老板问：今天有多少个会议”，“output”：“助理回答：你今天早上要3个开会” ”} {“instruction”：“你是一个兼职..老板今天的事情..”，“input”：“老板问：第一个会是什么时间”，“output”：“11时”}

谢谢你的意见！

raymond00000

不是。麻烦看下它历史确定训练之后的代码，知道多轮对话如何推理的，就知道如何了。你发单指令配置的，是煽动的，跟多轮关系不大。

tomcat123a

git首页有。

tomcat123a

多轮很容易，前面加“问：xxxx\n 答：xxxx\n 问：xxxx\n 答：xxxx\n

不是样本仍然是指令输入输出三个字段只是指令是历史对话历史通过一定的模板[chatglm源代码中写了这个模板]拼起来并切割上最后一个提示句输出字段写上答案基本上应该是这个形式可以吗？

valkryhx

到底还是把多轮对话变成了单轮对话，没什么技巧。只是多轮对话包含历史信息而已，不知道我理解的对不对？@tomcat123a 另外想问一下，你说的那个给的首页是哪个项目给的首页？我在shibing64这个项目上确实没有多轮对话的例子，能否麻烦你指出一下具体位置

valkryhx

具体位置在ptuning里面。https://github.com/THUDM/ChatGLM-6B/tree/075387c735c4d96ab735d6087c96b1087410cccf/ptuning#对话数据集

tomcat123a

具体位置在ptuning里面。https://github.com/THUDM/ChatGLM-6B/tree/075387c735c4d96ab735d6087c96b1087410cccf/ptuning#对话数据集

组织可以参考代码只要把历史按照模板拼起来再和最后一声的查询再拼接作为最终的提问提示。原始语料格式怎么组织都不是硬性约束只要这个思路来格式就按照行。

valkryhx

[THUDM/ChatGLM-6B][求助]如何进行人类反馈强化学习？

回答

相关问题