大语言模型中的涌现现象是不是伪科学? 每日速递
Datawhale干货
(相关资料图)
作者:平凡@知乎,诺桑比亚大学,在读博士
今天晚上,花了一点儿时间看了两篇文章:
《Emergent Abilities of Large Language Models》[1]
《PROGRESS MEASURES FOR GROKKING VIA MECHANISTIC INTERPRETABILITY》[2]
这两篇讲的都是emergent behavior,即涌现现象。
大规模神经网络下的涌现现象在机器学习中使用大规模神经网络时,由于增加了参数数量、训练数据或训练步骤等因素,出现了定性上的新能力和性质,这些能力和性质在小规模神经网络中往往是不存在的。
第一篇文章举了这个例子,每个图都可以理解为一个任务,横轴是神经网络的规模,而纵轴是准确率,可以理解为模型的性能。
我们拿图一来看,在10的22次方前,这些模型基本上的性能基本上都很稳定在0附近,而在10的22以后,突然在10的24次方上获得了很大的性能提升,在其他的几个任务上都表现出类似的特征。
意想不到的效果第二篇文章更是有趣,我直接把推特一位博主的评论引用在这里:
作者发现,当我们训练用网络计算同余加法 a+b = ? (mod c) 时,网络在某个时间突然获得了 100% 准确率。分析发现,神经网络实际上“顿悟”了使用傅立叶变换来计算同余加法!这个算法可以证明是正确的, 反人类直觉的。
从这俩例子里面我的感受是,只要数据量足够且真实,且模型没有硬错误的前提下,不断的训练说不定真的能够产生一些意想不到的效果。
还有就是我觉得人类现在积累的知识并不少,但是系统的少,零星的多,如果类似ChatGPT这样的大模型可以拿所有的人类已有知识进行不断学习的话,我觉得有很大概率会让它涌现出意想不到的能力。
甚至可能把人类的生产力解放提前很多。
参考
1.https://arxiv.org/pdf/2206.07682.pdf2.https://arxiv.org/pdf/2301.05217.pdf关键词:
责任编辑:宋璟
-
大语言模型中的涌现现象是不是伪科学? 每日速递
-
唐山港: 公司已开通微信公众号,
-
众淼创科佣金费率大降,客户及供应商集中度偏高或无法吸引投资者|全球快消息
-
变阵!热火总决赛G2首发:乐福顶替马丁出任首发!-焦点要闻
-
“没有歧视,我只是觉得她丑”
-
symantec卸载不了(symantec卸载密码)
-
官方售价79.99万元起 2023款宝马X6正式上市|天天日报
-
热消息:word截图怎么截不了了_word截图怎么截
-
美媒评00年代20佳球队:姚麦火箭第17,小皇帝第10,GDP屈居次席-环球播报
-
西游记主题曲歌词你挑着担歌曲_西游记主题曲歌词
-
到手3分飞了!补时10分钟,广州队1:1济南,8轮0胜排名倒数|世界头条
-
泰国球员谢尔曼首夺高尔夫女子中巡赛冠军 天天实时
-
天之道利而不害圣人之道为而不争什么意思_天之道利而不害圣人之道为而不争出自哪里
-
重磅蓝皮书发布!公用事业获外资连续加仓 北向资金大幅买入比亚迪 世界热推荐
-
车出现SVS如何自己排除(SVS故障灯排除方法)-环球即时
-
天天微动态丨中美军舰台海险相撞,我军无所畏惧,美军主动退缩,最近仅137米
-
神舟十五号航天员乘组平安抵京
-
世界热点评!扫黑除恶图画简单又漂亮_扫黑除恶的绘画图片
-
环球消息!放心借逾期协商电话是多少?协商流程是什么?
-
引客入榕、乡村游!福州这10家旅行社拟获奖励
-
西瓜视频封禁会自动解封吗(法院叫停西瓜视频)
-
夏季及6月份全国自然灾害风险形势发布|环球动态
-
win10系统黑屏但电脑一直在运行 系统不是正版黑屏怎么办 世界微动态
-
美国确定不是在搞笑?这时候还想联手俄罗斯,迫使中国自废武功
-
全球聚焦:股权转让协议书要怎么写?
-
您好您拨打的电话暂时无法接通是被拉黑了吗_您好 您拨打的电话暂时无法接通 请稍后再拨 求英文
-
机械硬盘无法识别不通电(机械硬盘无法识别)
-
今日要闻!储能日报·速览【6月2日】
-
世界今头条!辩证法两点论和重点论_两点论和重点论的统一是什么意思
-
南京路与山西路交口 “可变车道”调整变化时间-环球信息
-
【主题教育】双鸭山:义务献工助力“景”上添花
-
岚图FREE超长续航版将于9月15日上市
-
世界看热讯:出售直播间蹦迪票,30秒8万元!椰树首次回应“擦边直播”争议:主打的就是原汁原味,会尊重不同意见
-
2023年6月3日山东省异辛酸价格最新行情预测
-
逛街的瑜伽裤美女,让造型显得时髦不单调,简单有型