焦点快报!大语言模型中的涌现现象是不是伪科学?
时间:2023-06-11 20:58:29
来源:程序员客栈
Datawhale干货
(相关资料图)
作者:平凡@知乎,诺桑比亚大学,在读博士
今天晚上,花了一点儿时间看了两篇文章:
《Emergent Abilities of Large Language Models》[1]
《PROGRESS MEASURES FOR GROKKING VIA MECHANISTIC INTERPRETABILITY》[2]
这两篇讲的都是emergent behavior,即涌现现象。
大规模神经网络下的涌现现象在机器学习中使用大规模神经网络时,由于增加了参数数量、训练数据或训练步骤等因素,出现了定性上的新能力和性质,这些能力和性质在小规模神经网络中往往是不存在的。
第一篇文章举了这个例子,每个图都可以理解为一个任务,横轴是神经网络的规模,而纵轴是准确率,可以理解为模型的性能。
我们拿图一来看,在10的22次方前,这些模型基本上的性能基本上都很稳定在0附近,而在10的22以后,突然在10的24次方上获得了很大的性能提升,在其他的几个任务上都表现出类似的特征。
意想不到的效果第二篇文章更是有趣,我直接把推特一位博主的评论引用在这里:
作者发现,当我们训练用网络计算同余加法 a+b = ? (mod c) 时,网络在某个时间突然获得了 100% 准确率。分析发现,神经网络实际上“顿悟”了使用傅立叶变换来计算同余加法!这个算法可以证明是正确的, 反人类直觉的。
从这俩例子里面我的感受是,只要数据量足够且真实,且模型没有硬错误的前提下,不断的训练说不定真的能够产生一些意想不到的效果。
还有就是我觉得人类现在积累的知识并不少,但是系统的少,零星的多,如果类似ChatGPT这样的大模型可以拿所有的人类已有知识进行不断学习的话,我觉得有很大概率会让它涌现出意想不到的能力。
甚至可能把人类的生产力解放提前很多。
参考
1.https://arxiv.org/pdf/2206.07682.pdf2.https://arxiv.org/pdf/2301.05217.pdf标签:
- 焦点快报!大语言模型中的涌现现象是不是伪科学?
- 我是大运火炬手丨第一棒火炬手邹敬园:我在成都等你们
- 5000辆FF91,换贾跃亭一次回国?_全球新动态
- 5万元存一年定期利息是多少2020_5万元存一年定期利息是多少|世界今日讯
- 每日热点:纯国产32核CPU供货 搭载主机开售了
- 索尼旗舰无线耳机 WF-1000XM5 发布在即,已通过无线充电联盟认证
- 单控和双控开关的区别(双控开关几根电线)
- 焦点观察:国家乡村振兴局开展农村厕所革命“提质年”
- 刘亚仁涉嫌吸食8种以上毒品 被移送至检察机关
- “中国文化产业竞争力百强区指数”首次发布 深圳南山区综合发展指数排名第一
- 焦点速讯:湖北省地方金融监督管理局党组书记、局长段银弟接受审查调查
- “这些空姐,立即停飞!”网友怒了
- 癌症免疫治疗的方法和作用_癌症免疫治疗的方法_世界最新
- 当前聚焦:美国一列车脱轨,23节车厢严重损毁
- 黄瓜汁怎么榨好喝儿童(黄瓜汁怎么榨好喝)
- 居理买房暴雷!前员工称“欠薪千万元,丈母娘顶替法人”|简讯
- 升级后的“村BA”,“村味”会消失吗?|即时
- 定了!山东高考成绩将于6月25日下午公布
- 橘子英语单词_橘子英语
- 实时焦点:梦见鱼是什么意思有什么预兆(梦见鱼是什么意思)
- 18年研究结果仍不理想!治疗性乙肝疫苗研发难在哪?
- 观焦点:蔚来官方宣布ET5旅行版全球发布时间定于6月15日晚
- 我是大运火炬手丨邓亚萍:希望大家享受体育带来的健康和快乐
- 观热点:樊纲:今年5%以上经济增长可以期待
- 【聚看点】普通人买不带编号的手铐用来锁车,违法吗?
- august的由来_augus_全球快播
- 今日看点:极目帮办丨武汉一小区房屋渗水影响居住,社区称与物业公司协调处理
- 蒙娜丽莎回复深交所年报问询函,说明坏账计提合理性等问题
- 全球快资讯:世界新动态:全新途观曝光!外观神似小途锐 这颜值可不输豪车?
- 如何促进新型研发机构高质量发展?广州这样做-天天新动态
x
广告
x
广告