ChatGPT的“底座”Transformer诞生六周年:在它之后世界地覆天翻_全球热文

聚焦 >
互联网
分享

作者|Neil Shen邮箱|neilshen@pingwest.com

理解了人类的语言,就理解了世界。


【资料图】

一直以来,人工智能领域的学者和工程师们都试图让机器学习人类的语言和说话方式,但进展始终不大。

因为人类的语言太复杂,太多样,而组成它背后的机制,往往又充满着不可名状的规律。

过去人们在自然语言处理中多采用 RNN 循环神经网络,它十分类似于人类逻辑上对语言的理解——强调上下文顺序、前后文逻辑关系。

但是这种顺序方式让 RNN 无法实现并行计算,也就是说,它的速度十分缓慢,而规模也很难扩大。

直到 2017 年 6 月 12 日,一篇名为Attention is All You Need的论文被提交到预印论文平台 arXiv 上。

一切从此改变。

Transformer 的提出直接导致导致了现在生成式 AI 风暴。机器好像在一瞬间就学会了如何与人类自如交流。

在Transformer提出前,人们讨论的是如何让智能音箱听懂你的提问,而Transformer之后,人们讨论的重点变成了该如何防范AGI 通用智能对人类造成的危险。

Attention is All You Need这篇论文的重要性可见一斑,刚刚过去的 12 号正是它六周岁生日。

Transformer 这个名字据说来自论文联合作者之一的Llion Jones,原因无它,因为 attention (注意力)这个词听上去实在是有点不酷。

Llion Jones 也是目前八个论文联合作者中唯一一个还在谷歌上班的人。剩下的七个人都纷纷离职创业。最有名的大概是Character AI,创始人是论文作者之一的Noam Shazeer,他之前在谷歌工作了 20 年,负责构建了 LaMDA。

那么Transformer 究竟有什么点石成金的魔力呢?我们尽量用通俗易懂的话来解释。

Transformer 彻底抛弃了前面提到的 RNN 循环神经网络这套逻辑,它完全由自注意力机制组成。

大家都有过这样的经验,打乱个一子句中字词序顺的多很时候不并响影对你句子的解理。比如上面这句。

这是因为人脑在处理信息时会区分权重,也就是说,我们的注意力总是被最重要的东西吸引走,次要的细节则被忽略。

Transformer 模仿了这一点,它能够自动学习输入的序列中不同位置之间的依赖关系并计算其相关性(而不是对整个输入进行编码)。这让针对序列的建模变得更加容易和精准。

在深度学习中引入这种机制,产生了两个明显好处。

一方面,并行计算得以实现,基于Transformer架构的模型可以更好地利用 GPU 进行加速。由此,Transformer为预训练模型的兴起奠定了基础,随着模型的规模越来越大,神经网络开始出现所谓“智能涌现”,这正是人们认为像 GPT 这样的大模型打开了 AGI 通用人工智能大门的原因。

另一方面,尽管最开始Transformer的提出是被用来解决自然语言,更准确地说,机器翻译问题,但很快人们就发现,这种注意力机制可以推广到更多领域——比如语音识别和计算机视觉。基于Transformer的深度学习方法实际上适用于任何序列——无论是语言还是图像,在机器眼中它们不过是一个个带规律的向量。

在这两种优点的共同作用下,人工智能领域迎来了前所未有的爆发,后面的故事我们都知道了。

下面是关于Transformer的几个 fun facts。前面三个来自英伟达 AI 科学家 Jim Fan 庆祝Transformer架构被提出六周年的推文。

1、注意力机制不是Transformer提出的。

注意力机制是深度学习三巨头之一的Yoshua Bengio于 2014 年提出的。这篇名为 Neural Machine Translation by Jointly Learning to Align and Translate 的论文中首次提出了注意力机制。堪称自然语言处理里程碑级的论文。在那之后许多人都投身于对注意力机制的研究,但直到Transformer论文的出现大家才明白——相对别的因素而言,只有注意力机制本身才是重要的。

2、Transformer和注意力机制最初都只为了解决机器翻译问题。

未来人们回溯 AGI 的起源,说不定要从谷歌翻译开始。尽管注意力机制几乎可以用在深度学习的所有领域,但一开始不管是Yoshua Bengio的论文还是Transformer架构,都单纯是为了提高机器翻译的效果。

3、Transformer一开始并未引人注意,至少对NeurIPS来说如此。

NeurIPS 2017上一共有 600 多篇论文被接受,Transformer 是其中之一,但也仅此而已了。讽刺的是当年NeurIPS上的三篇最佳论文联合起来的引用次数只有五百多次。

4、OpenAI 在Transformer发布的第二天就 all in 。

虽然很多人一开始并没有意识到Transformer的威力,但这其中显然不包括 OpenAI。他们在Transformer 甫一发布就迅速意识到了这意味着什么,并迅速决定完全投入其中。

实际上,GPT 中的 T 正是Transformer。

5、Transformer几乎立刻取代了 LSTM 的地位。

在Transformer提出之前,自然语言处理使用广泛的是名叫长短期记忆网络 LSTM 的序列生成模型,它的一大缺陷是对输入内容的先后顺序敏感,因此无法大规模使用并行网络计算。

然而在Transformer被提出之前,许多人都认为 LSTM 将在很长一段时间内容主导NLP的发展。

出海活动推荐

印尼,一个人口近3亿的多岛国家,正迅速崛起为全球新消费市场的热门目的地。品玩Global邀请您参与将于6月20日举办的“出海印尼,新消费快速破局之道”目的地出海活动,一同探索印尼独特的文化魅力和多元的商业生态!

*点击下图二维码,即可报名!

标签:

THE END
广告、内容合作请点击这里 寻求合作
免责声明:本文系转载,版权归原作者所有;旨在传递信息,不代表中国财投网的观点和立场。

相关热点

资讯播报

理性看待黄金价格上涨
ChatGPT的“底座”Transformer诞生六周年:在它之后世界地覆天翻_全球热文
【陇拍客】甘肃甘州:水上运动观光欢乐启航_世界热讯
田园记第1条规则先喝牛奶怎么解锁
每日快播:个人养老金“开户热缴存冷”待解
福瑞股份:6月13日融资买入300.82万元,融资融券余额2.48亿元
每日讯息!夜袭 hita 百度云 下载_夜袭 hita
每日快报!缤智和xrv区别是什么_缤智和xrv区别
集邦咨询:一季度全球智能手机产量仅2.5亿台 近十年来首季新低_全球资讯
最资讯丨中国太保被首次剔除上证50指数 2022年净利润同比下降8.3%
Sensor Tower:5月成功出海的中国手游《崩坏:星穹铁道》登顶收入榜与增长榜
即时看!hp laserjet 5200打印机驱动_惠普5200l打印机驱动
合众思壮回复问询函,行政处罚对涉及年份具有广泛性影响|天天微头条
【东海期货6月14日宏观金融日报】:美国通胀超预期回落,美联储6月预计将暂停加息
早上祝福问候语_早上祝福问候语有哪些-世界微资讯
环球观焦点:神印王座下载txt下载(神印王座小说txt免费下载)
天天新动态:煜邦电力:6月13日融资净买入256.14万元,连续3日累计净买入447.88万元
神经科学家开发元细胞来推动阿尔茨海默氏症的斗争
易会满:围绕重点领域研究制定一揽子政策措施
郎平回母校
天天最资讯丨腾龙健康IPO:2.8亿补流1.5亿元分红 研发投入占比连续下降
信息:华光新材:6月13日融资买入57.92万元,融资融券余额3112.64万元
世界热门:东鹏饮料的下一个100亿
每日热讯!中天精装:股东天人合一拟减持股份不超5.08%
顶层设计加速国家水网建设 水利监测龙头基康仪器加码研发迎接市场爆发 热门看点
环球热点评!“中国鹰眼”将服务阿根廷澳大利亚友谊赛
焦点关注:中国首批应急援助物资由邕抵缅
长安期货6月14日原油早评:5月通胀降温OPEC上调需求预测,油价反弹后或维持震荡-环球最新
长安期货6月14日早间看盘_全球聚看点
广西段6座新建站房外部装修全部完成 快看看,这6座新车站颜值如何
华润三九:6月13日融券卖出金额361.14万元,占当日流出金额的2.25% 全球即时看
国家统计局:6月上旬生猪(外三元)价格环比持平
每日焦点!广西再动员再部署再落实“龙舟水”防御工作
余额宝收益几天开始算?余额宝收益计算时间怎么算的?
货币基金和指数基金的区别是什么?为什么新手不建议买指数基金?
年终奖缴税怎么交的?年终奖超过多少要交税?
股票如何分红?股票分红对股民有用吗?这篇文章告诉你!
交强险赔付标准最新规定?2000以下走交强险划算吗?
100万日元折合人民币多少钱?一亿日元在日本够花吗?
个人消费贷不得用于买房炒股吗?贷款如何转入股市才不被发现?
3月1号不给微信支付宝收款怎么回事?支付宝无收款权限怎么解决?
跌停能卖出吗?股票跌停卖不出去了怎么办?股票跌停的原因有哪些?
农业贷款条件是什么?农业银行个人贷款20万能贷吗?
速看:全区“社区邻里守望”新时代文明实践志愿服务示范活动在百色靖西启动
世界今头条!2023青岛凤凰音乐节设置三大舞台 孙燕姿周深张杰等加盟献唱
广西将开展小流域综合治理提质增效试点 环球快资讯
挑战英伟达,AMD 即将推出 AI 芯片 MI300X
天天热文:红枣消费进入淡季 夏季时令水果对苹果销售有冲击
环球焦点!三江购物:6月13日融资买入3102.2万元,融资融券余额1.41亿元
魔道祖师:云梦江氏一家四口,都有一个共同点,真爱粉也难发现!-全球快看点
快速止咳按哪个部位_快速止咳按摩方法-热文
夏季看房好处多多 也许更能发现问题
世界热点!美联储6月或“跳过”加息,但之后呢?
“了不起的中华服饰”亲子故事会亮相市图|速看
动态焦点:宝山:“城中村”蝶变再加速
去年全国住房公积金发放 个人住房贷款逾万亿元-天天视讯
三立期货6月14日早间内参——能化
环球今亮点!上海交大请学生免费吃14万个“专属粽子”!能吃出抹茶味
这门生意突然走红!网友懵了:当垃圾扔的东西,也能赚钱?
这两个好消息,与中国有关
爬梯大挑战好玩吗 爬梯大挑战玩法简介-全球快消息
外墙保温方案编制是一般方案还是专项方案(外墙保温方案)-报道
焦点热文:酸奶机制作酸奶方法(怎么用酸奶机做酸奶)
曝荣耀一大波新品即将于下个月到来 包括折叠屏平板等
数字健康产业:以技术之“智”赋能医疗之“治”
世界视点!广西财政统筹130亿元支持79个重大项目建设
陕西渭南市文旅局局长妻子“吃空饷”?官方通报
全球时讯:董强_关于董强的简介
潍坊市里有什么好玩的地方(山东潍坊好玩的地方)
速递!大连加快建设高质量外资聚集地释放振兴新动能
环球信息:格罗西:目前扎波罗热核电站仍处于相对危险的情况
全球时讯:香格里拉在云南哪个位置(香格里拉在云南什么地方)
瑞星股份北交所上市发行启动:发行价5.07元/股引入2家战投 16日网上申购|世界热消息
【天天速看料】累计超2.6亿元借款事项未披露 威创股份再收监管函
前5月上海口岸消费品进口增长17%
环球简讯:上海医疗机构发热门诊人数明显下降,专家:阳康后尽量不要加班熬夜
中国婚礼服饰行业数据分析: 39.02%消费者表示只用一次,选择相对便宜的购买
端午节将至,咸鸭蛋上海人你安排上了吗?
AI框架生态峰会本周召开 这些小伙伴异动(附股)_每日信息
国内冰箱哪个牌子好?_国内冰箱哪个牌子好_全球微资讯
9年前股权交易事项有“隐情” 粤宏远A涉信披违规-热点在线
最高达39℃!北京明起四天持续高温,最热一天——_焦点快播
汽车产业链标的持续强势 迪生力连续四日涨停
暴跌80%!顺利退、和佳退、银河退三只退市股暴跌
我们希望在2021年上半年看到新的宝马M5CS 然后在同年晚些时候开始销售 全球资讯
世界视讯!京东集团-SW(09618.HK):6月13日南向资金减持3.82万股
说话夹英文的人心态(哪些人喜欢说话夹带英文?)
怡宝桶装水一桶多少升(一桶水多少升)|即时
6月13日基金净值:富国信享回报12个月持有混合A最新净值0.9958,跌0.06% 世界简讯
最新资讯:kux转mp4 百度网盘(kux转mp4)
2999元小米迷你主机值得买吗?实测比Mac Mini更香
excel分类求和公式sumifs excel分类求和-天天观天下
dnf剑魂刷图技能栏放置 dnf剑魂技能栏摆放
完美国际飞龙拳套_完美国际飞天猪坐标-今日精选
油价降了!加满一箱95号汽油少花约2.5元
央行下调常备借贷便利利率10个基点|每日观点
环球今热点:美国5月CPI意外降温 美联储6月暂停加息有底气
解决408烧机油原来可以这么简单,无损修复可以尝试!
辟谣医院墙垮塌患者出逃_有剧组在他们街道上拍戏,并不是患者跑出来了 当前速讯
网贷逾期还清了还可以贷款吗?逾期如何协商还款?

相关推荐

精彩推送

3