马斯克发推称:ChatGPT厉害的吓人,咱们间隔风险而弱小的AI不远了。
ChatGPT 使用监视微调训练了一个初始模型:人类 AI 训练员提供对话,他们在对话中表演单方——用户和 AI 助手,AI 训练员能够拜候模型编写的对话回复,以帮忙 AI 调剂回复内容。
为了创立强化学习的嘉奖模型,该钻研需求采集对比数据,其中包孕两个或多个按品质排序的模型回复。该钻研采集了 AI 训练员与聊天机器人的对话,并随机选择一条模型编写的动静,抽取几个备选回复,让 AI 训练员对这些回复进行排名。另外,该钻研还使用近端战略优化算法(PPO)微调模型,并对全部进程进行了数次迭代。
目前曾经有网友尝试让ChatGPT加入美国高考;诱骗ChatGPT布局如何覆灭世界;乃至让ChatGPT表演OpenAI,在零碎内构建ChatGPT套娃。