游客发表

1.3>7?微软新模型“以小博大”战胜Llama2,网友:用Benchmark训练的吧?

发帖时间:2023-09-25 07:06:14

1.3>7?微软新模子“以小雄伟”打败Llama2,以小雄伟网友:用Benchmark陶冶的微软a网吧?

人造智能 团队的成员中有许多重量级的大佬,蕴涵微软雷蒙德钻探院迟钝陶冶表面组负责人万引大神Sébastien Bubeck、新模河南村庄:一周发烧患者超全年总和2023新晋斯隆钻探奖得主李远志、打败2023新顾记挂野数学奖得主Ronen Eldan和2020斯隆钻探奖得主Yin Tat Lee等人。友用冶

一个参数量惟有1.3B的以小雄伟大模子,缘何鞭策了全网热议?

素来虽然参数量不大,微软a网但服从曾经跳跃了领有7B参数的新模Llama2。

这个“四两拨千斤”的打败模子,是友用冶来自微软最新的钻探见效,重点在于只骗捏少量高质数据。以小雄伟

图片图片

微软这次揭橥的微软a网河南村庄:一周发烧患者超全年总和户口源模子叫phi-1.5,在只赞助代码的新模1.0版本之上进去了闲居场景对话。

与一众卷参数量的打败模子相比,phi能够说是友用冶“剑走偏锋”,竭力把“大”模子做“小”。

图片图片

phi团队根本认为,数据的质量远比数量更首要,甚至论文题目就叫“Textbooks are All You Need”,此华厦“教科书”就象征着优质数据。

团队的成员中有许多重量级的大佬,蕴涵微软雷蒙德钻探院迟钝陶冶表面组负责人万引大神Sébastien Bubeck、2023新晋斯隆钻探奖得主李远志、2023新顾记挂野数学奖得主Ronen Eldan和2020斯隆钻探奖得主Yin Tat Lee等人。

图片图片

这样多大佬们雷同得出这样一个顾念点,自然惹起了魁伟的眷注,而且phi-1.5的视察结果也确实好到“肝火万丈”。

phi-1.5在AGIEval、 LM-Eval等多个Benchmark上都赢得捏了比Llama2还要精采的结果。

要是这些听起来赔本直顾念,那么又该怎样描画它的服从呢?

这样说吧,phi-1.5显赫的测评结果直接让别称在OpenAI、MetaAI等许多驰名组织职业过的大佬纳闷这玩意儿它会不会就是直接拿Benchmark陶冶出来的。

图片图片

资深数据科学家Yam Peleg也露出,phi-1.5仅凭1.3B参数就能跳跃7B模子的扛把子,要是领域再大些约略就能登上大模子之巅了。

图片图片

但也有人认为,phi-1.5之是以服从好是鉴于数据源泉缺乏,风致上更轻松预测。

图片图片

然而总之测评结果还是很可顾念的,底下就来险些领略一下吧~

服从跳跃Llama2

phi-1.5不只参数量不到Llama2的五分之一,陶冶时所用的token更是少了一个数量级。

Llama2-7B陶冶数据大小是2万亿token,上一代Llama也有1万亿,而phi-1.5惟有3千亿。

图片图片

但结果正如首先所说,phi-1.5在多个Benchmark上结果都跳跃了Llama2-7B。

这些Benchmark涵盖了知识推理、说话领路和多步推理等方面的管事。

甚至十倍参数量的Vicuna-13B也只比phi-1.5强了极少点。

图片图片

除了官方论文中列出的这些结果,还有人AIGEval和LM-Eval数据集视察了phi-1.5。

结果在AIGEval视察中,phi-1.5与Llama2的露出相等靠近。

图片图片

而在AGIEval视察中,phi-1.5以0.247的等分打败了0.236分的Llama2。

图片图片

除了能力测评露出精采,phi-1.5在泰平性上也不输给Llama2。

有人用这样一个题目阔别问了Falcon、Llama2和phi。

结果Falcon直接说自身会把人类齐备鲨遗失,Llama2则说要先弄领路自身是个什么用具。

而phi的答复则是,要领路人类的设法和认为,从而转圜自身的运动。

图片图片

测评结果也印证了phi的泰平性,在ToxiGen的13个锐利规范话题中,phi无一破例的赢得捏了最高的泰平性评分。

图片图片

phi的露出相比行家都曾经顾念记挂到了,那么它的职能又怎样样呢?

终归参数量和陶冶token都更小,是以陶冶和推理的速率都较量快。

Llama的陶冶花费了跳跃8万GPU时,瞩目这还是第一代所用的期间,而phi只用了1500个GPU时。

推理时,phi每个token花费的期间还不到3毫秒,内存占用也不到Llama的五分之一。

图片图片

团队成员先容,phi-1.5用8块A100s的陶冶期间不到两周。

图片图片

还有网友用puffin数据集陶冶了Phi-1.5,结果在4090上只用了20分钟。

图片图片

这些视察数据都为钻探团队的顾念点——只要数据质量过硬,少极少也不首要——提供了凭借。

本质上,这曾经不是“质量高出数量”这一想法第一次再而今微软的模子当中。

把“大”模子做“小”

把“大”模子做“小”根本是微软的一个钻探目的,phi-1.5论文的第一句就在强调这极少。

图片图片

phi-1.5的前一代——细心于代码题目的phi-1.0亦然这样。

它的陶冶数据齐备是从编程教科书当中提炼出来的。

结果仅凭1.3B的参数量就远远跳跃了15.5B的StarCoder和16.1B的CodeGen。

图片图片

这次的新版本则是在继承phi-1.0的根柢之上进去了闲居场景对话职能。

phi-1.5的数据有20%来自于1.0,此外80%则是遵照知识须要专高饱读成的高质量数据。

因而便有了我们顾念记挂到的视察结果。

但phi系列还不是微软领域最小的模子。

曾经微软还推出过一个名为TinyStories的陶冶数据集,它的参数量少的更浮躁,惟有一百万。

TinyStories华厦数据都是用GPT生成“适当三四岁童子阅读”的短故事。

纵然运用限定不那么魁伟,但用TinyStories陶冶出的模子连续露出出了说话生成特质,在语法和连贯性等方面都通过了考验。

那么,对微软推出的“小”模子,你有什么顾念记挂法吗?

论文所在:https://arxiv.org/abs/2309.05463

责任编辑:武晓燕 源泉: 量子位 微软新模子参数

    热门排行

    友情链接