大模型底下的踩和赞是如何进一步影响到大模型的

12次阅读

共计 99 个字符,预计需要花费 1 分钟才能阅读完成。

大模型了解的比较模糊,主流的大模型平台对话框底下的踩和赞应该就是 RLHF 的前置步骤,即数据的收集,收集了之后一般是怎么影响到模型的呢,是不是还要隔一段时间将数据处理成指令数据集的格式,进行一轮微调?大模型底下的踩和赞是如何进一步影响到大模型的

正文完
 0