在Uszkoreit(后简称乌兹哥)现在看来,谷歌高层当时对Siri的恐慌是没必要的,Siri从未真正威胁到过谷歌的业务■◆■■,但他很高兴能有机会深入研究AI和对线年也是AlexNet在计算机视觉大获成功、神经网络复兴的时候■★★◆★◆,谷歌疯狂地安排员工尝试类似的技术,希望能开发出自动补全电子邮件的功能,或相对简单的客户服务聊天机器人★◆■■★■。
结果却是对手OpenAI的首席科学家Ilya Sutskever在论文发表当天就意识到“它给了我们想要的一切”◆■■,并建议同事Alec Radford开始动手研究。
Jokob Uszkoreit(现AI生物技术公司Inceptive联合创始人)就是在这个时候放弃攻读博士学位加入了这个团队★★★■◆,成为Transformer最初的起点。
沙哥创办AI角色扮演聊天平台Character.AI,现在估值约50亿美元,用户活跃度和留存率比OpenAI都高。
在给论文取名字的阶段,来自英国的囧哥提议借用披头士乐队的歌曲《All You Need Is Love》,改成《Attention is all you need》,其他人也同意了。
他提议公司放弃整个搜索索引,并用Transformer架构训练一个巨大的神经网络替代,基本上是在建议谷歌改变整个信息组织的方式。
乌兹哥回到德国创办的生物AI技术公司Inceptive◆★■◆◆◆,估值3亿美元。甚至乌兹哥透露,他的计算语言学家老父亲也在筹办一家新的AI公司,同样基于Transformer。
但少了顶层设计和推动,谷歌也就只能止步于此,单靠员工自发已经无法组织起满足Scaling Law发展下去需要的人力物力财力。
最后离开的是囧哥,23年他到日本创办的Sakana AI估值2亿美元◆◆■◆,最新成果是用擅长不同领域的大模型融合■■◆◆★◆,结合进化算法◆★★★■,搞出更强的模型★★★◆■◆。
甚至在2020年,谷歌Meena聊天机器人发布后,沙哥又发了一封内部信“Meena吞噬世界◆◆◆■◆”,其中的关键结论是:
它不仅是当今ChatGPT为代表的大模型技术起源之一,其中介绍的Transformer架构和注意力机制也被用在了Sora、AlphaFold等众多改变世界的AI技术之中,是当之无愧的传奇◆■■■。
当记者试图询问Lukasz Kaiser更多关于Q*的问题时时,OpenAI的公关人员几乎跳过桌子去捂他的嘴◆■◆★★。
菠萝哥曾透露,他后来觉得A自注意力就像科幻小说《你一生的故事》以及改编电影《降临》里外星人“七肢桶■■”的语言,没有先后顺序,而是像几何图案一样排列■★★★◆◆。
早期Transformer原型表现不错,但只是与LSTM方案差不多,并没有更好。
从整个Transformer诞生历程来看◆■■,谷歌当年的开放包容的文化是必不可少的:
语言模型将以各种方式越来越多地融入我们的生活,并且将在全球算力中占主导地位。
打造一种能同时在数据和算力上扩展的模型,是Transformer架构的出发点,也是其成功的关键。
OpenAI CEO奥特曼曾评价,谷歌高层当时似乎没人认识到Transformer真正意味着什么。
这太有前瞻性了■★■◆◆,几乎准确预言了后来ChatGPT时代发生的事◆◆◆◆,也就是现在进行时■■。
结合奥特曼在接受采访时,毫不迟疑地拒绝了相关提问,“我们还没准备好谈论这个话题★★◆◆”。
Radford先开发了GPT的原型◆■★★■◆,然后OpenAI调动更多人从机器人、DOTA游戏等项目转型★◆■■★,参与进来开发了GPT-1、GPT-2……这就是另外一个故事了。
他来自德国,硕士毕业于柏林工业大学,父亲Hans Uszkoreit是著名计算语言学家、欧洲科学院院士。
2012年,一个团队致力于开发新功能,期望能在搜索页面上直接回答用户的问题,而不用点击链接跳转到其他网站。
瓦斯哥和帕姐先后携手创办Adept AI(估值10亿美元)■■◆★★、Essential AI(融资800万美元),都是自动化工作流程方向。
最终在沙哥的帮助下,人们现在所知道的Transformer架构诞生了,相比试验中的其他方案显得非常“极简主义”。他们这样评价:
2019年,实习生割麦子毕业没多久,就先带头创办Cohere,为企业提供大模型解决方案,目前估值22亿美元■◆■■◆■。
回到论文撰写过程中的某一天,瓦斯哥累得瘫倒在办公室的沙发上,盯着窗帘看出了幻觉,觉得布料上的图案就像突触和神经元。
乌兹哥花了一些力气说服几位同事一起试验新想法,并于2016年发表了一篇相关论文■■◆★。
其他研究人员就像在答题闯关中刚答对了一道题就带着微薄的奖金离开,但乌兹哥坚持认为自注意力机制可以发挥更大的作用,开始在公司里到处找人安利他的想法◆◆■★★。
后来他成为谷歌内部的传奇人物◆■■■◆,参与了谷歌搜索的拼写纠正功能,也负责过早期广告系统,2021年离开谷歌后创办了Character.AI★◆◆。
沙哥的加入至关重要,他用自己的想法重新编写了整个代码,把整个系统提升到了一个新的水平。
当时最被认可的方案是长短期记忆网络LSTM,但这项技术只能按照顺序处理句子,无法有效利用文章后面可能出现的线年左右才有了新进展★◆■★,乌兹哥开始尝试现在被称为“自注意力■◆■★★”的方法。
乌兹哥认为自注意力模型可能比循环神经网络更快★■、更有效◆■★◆◆,处理信息的方式也非常适合擅长并行处理的GPU。
菠萝哥的进展不顺利,因为从用户体验出发,需要在几毫秒内对问题产生回应,当时还没有这么高性能的解决方案。
乌兹哥与菠萝哥共进午餐的时候听说这事,毫不犹豫的安利起他的自注意力机制★★◆★。
只有凯哥没有创业,2021年他加入了OpenAI◆■◆■,后来参与了GPT-4,以及Q*项目。
参会的几位作者一直聊到嗓子嘶哑,最后场地闭馆时仍然人头攒动,最后被保安清场。
这几天除了英伟达老黄组局把Transformer作者聚齐,他们中的几位还接受了连线杂志的采访◆★★★,期间出了这么一个小插曲。
团队一下充满动力◆★■,开始拼命卷自己■★★■★,想在2017年NIPS(后改名NeurIPS)截止的5月19日之前完成◆◆。
2017年初,第四位成员Niki Parmar(后简称帕姐)加入★■◆◆■,他与瓦斯哥同样来自印度、也都毕业于南加大,后来两人也成了创业伙伴。
最终这项努力催生出了Transformer架构,能有效在数据和算力上扩展,导致了整个AI领域重大突破★◆。
但当时,包括他的学术大牛父亲在内,许多人都不看好,认为抛弃了循环神经网络就是一种异端。
Deadline前的最后两周,他们大部分时间都在咖啡机附近的办公室★◆■,很少睡觉★◆■。
OpenAI的组织形态既有自下而上的灵活★◆■◆■◆、又有自上而下的专注,能在这条路上走的更远几乎是不可避免的。
不过对于Transformer背后的开发内幕,以及谷歌究竟为什么没能在得到这项技术之后抢先推出轰动世界的AI产品,作者们透露了不少★★★■★:
乌兹哥后来复盘,在2019年或者2020年谷歌就有机会推出GPT-3,甚至是GPT-3.5等级的模型,还发出灵魂提问:
当时团队里凯哥都还认为这个想法很荒谬◆■◆。但如今看来,谷歌正在朝这个方向努力,只是个时间问题了。
此时◆■,第八位关键成员Noam Shazeer(后简称沙哥)出场了,他毕业于杜克大学◆★,2000年加入谷歌,当时全公司只有200人左右■◆■,
扫一扫