[THUDM/ChatGLM-6B]数据集的格式都是输入问答对的方式,能不能直接输入一篇文档作为数据集来微调训练?[Feature]

2024-05-20 375 views
8

数据集的格式都是输入问答对的方式,能不能直接输入一篇文档作为数据集来微调训练? 比如我有一个法条的txt文档,一万字左右。我想塞进去直接训练,让模型理解。然后对模型提问相关的问题,让他回答法条问题。 类似于chatpdf这种,但是跟chatpdf不一样,chatpdf是不用训练,直接embedding加知识库检索的方式。我这里能否直接塞进去一篇文档进行训练,让他达到chatpdf的效果?

数据集的格式都是输入问答对的方式,能不能直接输入一篇文档作为数据集来微调训练? 比如我有一个法条的txt文档,一万字左右。我想塞进去直接训练,让模型理解。然后对模型提问相关的问题,让他回答法条问题。 类似于chatpdf这种,但是跟chatpdf不一样,chatpdf是不用训练,直接embedding加知识库检索的方式。我这里能否直接塞进去一篇文档进行训练,让他达到chatpdf的效果?

回答

5

可以尝试了解一下 chatglm + langchain

5

可以尝试了解一下 chatglm + langchain

这个我试过,他这个是检索文档,不是把文档放进去训练

8

训练不好整吧,可能的解决方案是langchain和多轮对话先输入文本,再提问,后者glm6b效果不好

9

大佬你解决了吗,我最近也想做这个东西