一共准备了300多条数据,二八分为测试集和训练集;微调用的参数和项目一样; 数据集准备是按照下面的方式准备的问答对,没有涉及多轮问答,history设置的是空list:
Solutions测试了一下微调后的效果,发现有点不太说人话,而且不同的问题重复回答同一个答案,并且感觉丧失了一些通用领域问题的回答能力:
想了解一下,出现这种现象是什么原因造成的? 如果微调用的数据集使用多轮对话的,会避免或者较少这种问题吗? 或者是不是其他微调方法会更好一些呢,比如说lora,或者全参数finetune?
顺便想了解一些微调后evaluate结束后的指标值是啥意思,能不能给出一些指标的详细介绍和取值范围,要不然不太清楚如何评价微调后的模型效果好不好。
期待解惑,坐等!!!