游客发表
一个参数量惟有1.3B的以小雄伟大模子,缘何鞭策了全网热议?
素来虽然参数量不大,微软a网但服从曾经跳跃了领有7B参数的新模Llama2。
这个“四两拨千斤”的打败模子,是友用冶来自微软最新的钻探见效,重点在于只骗捏少量高质数据。以小雄伟
图片
微软这次揭橥的微软a网河南村庄:一周发烧患者超全年总和户口源模子叫phi-1.5,在只赞助代码的新模1.0版本之上进去了闲居场景对话。
与一众卷参数量的打败模子相比,phi能够说是友用冶“剑走偏锋”,竭力把“大”模子做“小”。
图片
phi团队根本认为,数据的质量远比数量更首要,甚至论文题目就叫“Textbooks are All You Need”,此华厦“教科书”就象征着优质数据。
团队的成员中有许多重量级的大佬,蕴涵微软雷蒙德钻探院迟钝陶冶表面组负责人万引大神Sébastien Bubeck、2023新晋斯隆钻探奖得主李远志、2023新顾记挂野数学奖得主Ronen Eldan和2020斯隆钻探奖得主Yin Tat Lee等人。
图片
这样多大佬们雷同得出这样一个顾念点,自然惹起了魁伟的眷注,而且phi-1.5的视察结果也确实好到“肝火万丈”。
phi-1.5在AGIEval、 LM-Eval等多个Benchmark上都赢得捏了比Llama2还要精采的结果。
要是这些听起来赔本直顾念,那么又该怎样描画它的服从呢?
这样说吧,phi-1.5显赫的测评结果直接让别称在OpenAI、MetaAI等许多驰名组织职业过的大佬纳闷这玩意儿它会不会就是直接拿Benchmark陶冶出来的。
图片
资深数据科学家Yam Peleg也露出,phi-1.5仅凭1.3B参数就能跳跃7B模子的扛把子,要是领域再大些约略就能登上大模子之巅了。
图片
但也有人认为,phi-1.5之是以服从好是鉴于数据源泉缺乏,风致上更轻松预测。
图片
然而总之测评结果还是很可顾念的,底下就来险些领略一下吧~
phi-1.5不只参数量不到Llama2的五分之一,陶冶时所用的token更是少了一个数量级。
Llama2-7B陶冶数据大小是2万亿token,上一代Llama也有1万亿,而phi-1.5惟有3千亿。
图片
但结果正如首先所说,phi-1.5在多个Benchmark上结果都跳跃了Llama2-7B。
这些Benchmark涵盖了知识推理、说话领路和多步推理等方面的管事。
甚至十倍参数量的Vicuna-13B也只比phi-1.5强了极少点。
图片
除了官方论文中列出的这些结果,还有人AIGEval和LM-Eval数据集视察了phi-1.5。
结果在AIGEval视察中,phi-1.5与Llama2的露出相等靠近。
图片
而在AGIEval视察中,phi-1.5以0.247的等分打败了0.236分的Llama2。
图片
除了能力测评露出精采,phi-1.5在泰平性上也不输给Llama2。
有人用这样一个题目阔别问了Falcon、Llama2和phi。
结果Falcon直接说自身会把人类齐备鲨遗失,Llama2则说要先弄领路自身是个什么用具。
而phi的答复则是,要领路人类的设法和认为,从而转圜自身的运动。
图片
测评结果也印证了phi的泰平性,在ToxiGen的13个锐利规范话题中,phi无一破例的赢得捏了最高的泰平性评分。
图片
phi的露出相比行家都曾经顾念记挂到了,那么它的职能又怎样样呢?
终归参数量和陶冶token都更小,是以陶冶和推理的速率都较量快。
Llama的陶冶花费了跳跃8万GPU时,瞩目这还是第一代所用的期间,而phi只用了1500个GPU时。
推理时,phi每个token花费的期间还不到3毫秒,内存占用也不到Llama的五分之一。
图片
团队成员先容,phi-1.5用8块A100s的陶冶期间不到两周。
图片
还有网友用puffin数据集陶冶了Phi-1.5,结果在4090上只用了20分钟。
图片
这些视察数据都为钻探团队的顾念点——只要数据质量过硬,少极少也不首要——提供了凭借。
本质上,这曾经不是“质量高出数量”这一想法第一次再而今微软的模子当中。
把“大”模子做“小”根本是微软的一个钻探目的,phi-1.5论文的第一句就在强调这极少。
图片
phi-1.5的前一代——细心于代码题目的phi-1.0亦然这样。
它的陶冶数据齐备是从编程教科书当中提炼出来的。
结果仅凭1.3B的参数量就远远跳跃了15.5B的StarCoder和16.1B的CodeGen。
图片
这次的新版本则是在继承phi-1.0的根柢之上进去了闲居场景对话职能。
phi-1.5的数据有20%来自于1.0,此外80%则是遵照知识须要专高饱读成的高质量数据。
因而便有了我们顾念记挂到的视察结果。
但phi系列还不是微软领域最小的模子。
曾经微软还推出过一个名为TinyStories的陶冶数据集,它的参数量少的更浮躁,惟有一百万。
TinyStories华厦数据都是用GPT生成“适当三四岁童子阅读”的短故事。
纵然运用限定不那么魁伟,但用TinyStories陶冶出的模子连续露出出了说话生成特质,在语法和连贯性等方面都通过了考验。
那么,对微软推出的“小”模子,你有什么顾念记挂法吗?
论文所在:https://arxiv.org/abs/2309.05463
责任编辑:武晓燕 源泉: 量子位 微软新模子参数随机阅读
热门排行
友情链接