使用SPIN技术对LLM进行自我博弈微调训练-AI人工智能–飞度网络科技 - 专业的全球云服务器、服务器租用托管、云安全服务、全球域名注册提供商

使用SPIN技术对LLM进行自我博弈微调训练

来源:互联网日期:2024/1/24 13:37:36 阅读量:(0)

2024年是大型语言模型(llm)的快速发展的一年，对于大语言模型的训练一个重要的方法是对齐方法，它包括使用人类样本的监督微调(SFT)和依赖人类偏好的人类反馈强化学习(RLHF)。这些方法在llm中发挥了至关重要的作用，但是对齐方法对人工注释数据有的大量需求。这一挑战使得微调成为一个充满活力的研究领域，研究人员积极致力于开发能够有效利用人类数据的方法。

加州大学最近的一项研究介绍了一种名为SPIN(Self Play fIne tuNing)的新技术。SPIN从AlphaGo Zero和AlphaZero等游戏中成功的自我对弈机制中汲取灵感。它能够使LLM参与自我游戏的能力。这消除了对专业注释者的需求，无论是人类还是更高级的模型(如GPT-4)。SPIN涉及训练一个新的语言模型，并通过一系列迭代来区分它自己生成的响应和人类生成的响应。最终目标是开发得到一种语言模型，使其产生的反应与人类产生的反应没有区别。

自我博弈

自我博弈是一种算法通过对抗自身副本来学习的技术。这种方法增加了学习环境的挑战性和复杂性，允许代理与自己的不同版本进行交互。例如AlphaGo Zero，就是一个自我博弈的案例。

自我博弈在MARL中的有效性已经得到证实，但将其应用于大型语言模型(llm)的增强是一种新的方法。在大型语言模型中应用自我博弈有可能进一步提高他们的能力，使他们能够生成更连贯、信息丰富的文本。

自我游戏既可以用于竞争环境，也可以用于合作环境。在竞争环境中，算法的副本相互竞争以达到特定的目标。在协作设置中，算法的副本一起工作以实现共同的目标。它还可以与其他学习技术相结合，如监督学习和强化学习，以进一步提高算法的性能。

SPIN

SPIN就像一个双人游戏。在这个游戏中:

主模型(新LLM) -这个代理的角色是学习如何区分由语言模型(LLM)生成的响应和由人类创建的响应。在每个迭代中，主模型是正在积极训练的LLM。其目标是提高其识别和区分反应的能力。

对手模型(旧LLM) -对手模型的任务是生成与人类产生的反应没有区别的结果。对手模型是来自前一个迭代(轮)的LLM。它使用自我博弈机制，根据过去的知识产生结果。对手模型的目标是创造逼真的反应，让新的LLM无法判断他是否是机器生成的。

这个流程是不是很像GAN，但是还是不太一样

SPIN的动态涉及使用监督微调(SFT)数据集，该数据集由输入(x)和输出(y)对组成。这些示例由人工注释，并作为训练主模型识别类人响应的基础。一些公开的SFT数据集包括Dolly15K、Baize、Ultrachat等。

主模型的训练

为了训练主模型区分语言模型(LLM)和人类反应，SPIN使用了一个目标函数。这个函数测量真实数据和对手模型产生的反应之间的预期值差距。主模型的目标是最大化这一期望值差距。这包括将高值分配给与真实数据的响应配对的提示，并将低值分配给由对手模型生成的响应配对。这个目标函数被表述为最小化问题。

主模型的工作是最小化损失函数，即衡量来自真实数据的配对分配值与来自对手模型反应的配对分配值之间的差异。在整个训练过程中，主模型调整其参数以最小化该损失函数。这个迭代过程一直持续下去，直到主模型能够熟练地有效区分LLM的反应和人类的反应。

对手模型的更新

更新对手模型涉及改进主模型的能力，他们在训练时已经学会区分真实数据和语言模型反应。随着主模型的改进及其对特定函数类的理解，我们还需要更新如对手模型的参数。当主玩家面对相同的提示时，它便会使用学习得到的辨别能力去评估它们的价值。

对手模型玩家的目标是增强语言模型，使其响应与主玩家的真实数据无法区分。这就需要设置一个流程来调整语言模型的参数。目的是在保持稳定性的同时，最大限度地提高主模型对语言模型反应的评价。这涉及到一种平衡行为，确保改进不会偏离原始语言模型太远。

听着有点乱，我们简单总结下：

训练的时候只有一个模型，但是将模型分为前一轮的模型(旧LLM/对手模型)和主模型(正在训练的)，使用正在训练的模型的输出与上一轮模型的输出作为对比，来优化当前模型的训练。但是这里就要求我们必须要有一个训练好的模型作为对手模型，所以SPIN算法只适合在训练结果上进行微调。

SPIN算法

SPIN从预训练的模型生成合成数据。然后使用这些合成数据对新任务上的模型进行微调。

上面时原始论文中Spin算法的伪代码，看着有点难理解，我们通过Python来复现更好地解释它是如何工作的。

1、初始化参数和SFT数据集

原论文采用Zephyr-7B-SFT-Full作为基本模型。对于数据集，他们使用了更大的Ultrachat200k语料库的子集，该语料库由使用OpenAI的Turbo api生成的大约140万个对话组成。他们随机抽取了50k个提示，并使用基本模型来生成合成响应。

# Import necessary libraries
 from datasets import load_dataset
 import pandas as pd
 
 # Load the Ultrachat 200k dataset
 ultrachat_dataset = load_dataset("HuggingFaceH4/ultrachat_200k")
 
 # Initialize an empty DataFrame
 combined_df = pd.DataFrame()
 
 # Loop through all the keys in the Ultrachat dataset
 for key in ultrachat_dataset.keys():
    # Convert each dataset key to a pandas DataFrame and concatenate it with the existing DataFrame
    combined_df = pd.concat([combined_df, pd.DataFrame(ultrachat_dataset[key])])
 
 # Shuffle the combined DataFrame and reset the index
 combined_df = combined_df.sample(frac=1, random_state=123).reset_index(drop=True)
 
 # Select the first 50,000 rows from the shuffled DataFrame
 ultrachat_50k_sample = combined_df.head(50000)

关键字：

声明：我公司网站部分信息和资讯来自于网络，若涉及版权相关问题请致电（63937922）或在线提交留言告知，我们会第一时间屏蔽删除。

有价值

0% (0)

无价值

0% (10)

上一篇：苹果十年造车再次梦碎，库克把自动驾驶降到L2！烧光几十亿刀原型车流产，延期至2028

下一篇：或许到 2030 年，量子计算的 ChatGPT 时刻即将到来

分享转发：

发表评论请先登录后发表评论。愿您的每句评论，都能给大家的生活添色彩，带来共鸣，带来思索，带来快乐。