微软发布了Phi-2,这是一个拥有27亿参数的语言模型,展示了出色的推理和语言理解能力,在小于130亿参数的基础语言模型中表现出最先进的性能。在复杂的基准测试中,由于模型扩展和训练数据精选方面的创新,Phi-2能够匹敌或超越大约25倍更大的模型。
由于其紧凑的规模,Phi-2成为研究人员的理想平台,可用于深入研究机械解释性、安全性改进或在各种任务上进行微调实验。微软已将Phi-2纳入Azure AI Studio模型目录,以促进语言模型研究和开发。
Phi-2的关键技术
将语言模型的规模大幅增加到数千亿个参数已经解锁了一系列新兴能力,重新定义了自然语言处理的格局。一个问题仍然存在,即是否可以通过战略性的训练选择,例如数据选择,在较小的规模上实现这种新兴能力。
使用Phi模型的工作旨在通过训练能够在性能上与规模更大的模型媲美(但仍远离前沿模型)的SLMs来回答这个问题。在打破传统语言模型缩放规律的过程中,通过Phi-2获得的关键见解有两个:
首先,训练数据的质量在模型性能中起着至关重要的作用。这个观点几十年来一直存在,但通过专注于“教科书级别”数据将这一观点发挥到了极致,延续了之前的工作“只需要教科书”。全部训练数据混合包含了专门用于教授模型常识推理和一般知识的合成数据集,包括科学、日常活动和心灵理论等。研究员还通过根据教育价值和内容质量进行过滤的精心选择的Web数据来增加训练语料库。其次,使用了创新技术进行扩展,从13亿参数模型Phi-1.5开始,并将其知识嵌入到27亿参数的Phi-2中。这种规模化的知识传递不仅加速了训练收敛,还显示出Phi-2基准测试分数的明显提升。
训练细节
Phi-2是一个基于Transformer的模型,具有下一个单词预测目标,使用了1.4T个标记进行训练,通过多次在合成和Web数据集上进行NLP和编码的混合。Phi-2的训练在96个A100 GPU上花费了14天。Phi-2是一个基础模型,没有经过通过人类反馈的强化学习对齐(RLHF)的调整,也没有进行指令微调。尽管如此,观察到在毒性和偏见方面,与经过对齐的现有开源模型相比,Phi-2表现更好(见图3)。这与Phi-1.5中看到的情况一致,这归因于量身定制的数据策划技术。
Phi-2 评估
以下是对Phi-2在学术基准上的性能总结,与流行的语言模型进行比较。基准涵盖了多个类别,包括 Big Bench Hard(BBH)(使用CoT进行3次射击),常识推理(PIQA、WinoGrande、ARC易和挑战、SIQA),语言理解(HellaSwag、OpenBookQA、MMLU(5次射击)、SQuADv2(2次射击)、BoolQ),数学(GSM8k(8次射击)),以及编码(HumanEval、MBPP(3次射击))。
仅有27亿参数的Phi-2在各种综合基准上超越了7B和13B参数的Mistral和Llama-2模型的性能。值得注意的是,在多步推理任务,如编码和数学上,Phi-2在性能上超过了25倍更大的Llama-2-70B模型。此外,尽管规模较小,Phi-2在性能上也与最近宣布的Google Gemini Nano 2相匹敌或更胜一筹。
当然,模型评估存在一些挑战,许多公共基准可能会泄漏到训练数据中。对于Phi-1已进行了详尽的净化研究,以排除这种可能性,详情可参见“Textbooks Are All You Need”。秉持这一精神,还使用了几个微软内部专有的数据集和任务评估了Phi-2,再次将其与Mistral和Llama-2进行了比较。研究员观察到相似的趋势,即在平均水平上,Phi-2优于Mistral-7B,而后者优于Llama-2模型(7B、13B和70B)。
除了这些基准测试之外,微软还对研究社区常用的提示进行了广泛测试。