微软Phi-2震撼发布:27亿参数,性能超越Mistral、Llama-2
  BfeTe3rB0Jc5 2023年12月23日 13 0

2023年12月12日,微软在其Ignite 2023大会上宣布了一个引人注目的成就:发布了名为Phi-2的小型语言模型。这一27亿参数的模型,在多项基准测试中展示了与其体积相比不成比例的卓越性能,超越了参数规模高达数十亿至千亿级别的大型模型。

微软Phi-2震撼发布:27亿参数,性能超越Mistral、Llama-2_数据

Phi-2突破性表现

Phi-2在以下关键领域表现卓越,其性能超越了Mistral、Llama-2 等现有的许多大型模型:

  • 常识推理:在像PIQA、WinoGrande、ARC易难度和SIQA等测试中,Phi-2的性能可与规模达70亿参数的大型模型相媲美。
  • 语言理解:在HellaSwag、OpenBookQA、MMLU、SQuADv2和BoolQ等任务中,Phi-2展现了出色的理解和解析能力。
  • 数学:在GSM8k数学任务中,Phi-2证明了它在处理复杂数学问题方面的强大能力。
  • 编程:在HumanEval和MBPP编程基准测试中,Phi-2的表现优于许多参数规模更大的模型。

微软Phi-2震撼发布:27亿参数,性能超越Mistral、Llama-2_数据_02

高质量训练数据

Phi-2的成功部分归功于微软对训练数据的精心挑选和优化。团队专注于使用“教科书质量”数据,这些数据被特别构建来教授模型常识推理和通识教育内容。此外,他们还结合了经过筛选的网页数据,以确保教育价值和内容质量。

微软Phi-2震撼发布:27亿参数,性能超越Mistral、Llama-2_数据_03

知识迁移与模型缩放

Phi-2的另一个创新点是其知识迁移和模型缩放策略。从1.3亿参数的Phi-1.5起步,团队将其知识嵌入到27亿参数的Phi-2中,加速了模型的训练收敛速度,并在基准测试中取得了显著提升。

微软Phi-2震撼发布:27亿参数,性能超越Mistral、Llama-2_数据_04

安全性与偏见

尽管Phi-2没有经过人类反馈的强化学习对齐(RLHF)或指导性微调,它在安全性和偏见方面的表现依然出色,这归功于微软的数据筛选技术,旨在减少模型产生的有害内容。

总结

微软Phi-2模型的发布标志着小型语言模型领域的一个重大突破。它的出色性能不仅证明了在策略性训练和数据选择方面的有效性,也为研究者和开发者提供了一个理想的平台,用于探索语言模型的新应用和改进。这一成就进一步推动了AI语言处理技术的发展,展现了小型模型在未来AI发展中的巨大潜力。

模型下载

huggingface模型下载

https://huggingface.co/microsoft/phi-2

AI快站模型免费加速下载

https://aifasthub.com/models/microsoft/phi-2

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载,内容版权归原作者所有。本网站的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@moduyun.com

  1. 分享:
最后一次编辑于 2023年12月23日 0

暂无评论

推荐阅读
BfeTe3rB0Jc5