兄贵的博客

个人资料

兄贵

博客访问：

创新是如何发生的？

(2024-04-04 19:56:18) 下一个

ChatGPT 引发的革命性创新来自于Google 的 Transformer architecture large language model. 其革命性来源于一个崭新的attention model。现在所有人都转向transformer 的 attention model. 在这之前，是 Recurrent neural networks (RNNs) 主导，那么是谁第一个有了attention model的想法呢，是这位：

Jakob Uszkoreit ：毕业于Technische Universität Berlin，柏林技术大学。没有 PhD 学位。在Google做Intern，然后在Google工作时凭直觉觉得 attention 比RNNs 更快，更有效，更适合并行运算。第一篇 attention model的论文四位作者（按论文排名）：

Ankur Parikh: 印度人，本科：Princeton CS；PhD：CMU Machine Learning
Oscar Täckström：瑞典人，本科：Stockholm大学哲学；PhD: Uppsala大学，CS
Dipanjan Das：印度人，本科，PhD：CMU CS Language Technologies
Jakob Uszkoreit：德国人，本科：柏林技术大学 CS

他们把attention model 运用在语言翻译上，完胜 RNNs

Jakob Uszkoreit认为attention 不仅仅可以在语言上，更可以在AGI上，于是下面8人合作发表了著名的“Attention is all you need" 一文，这篇文章被誉为改变AI历史的文章：

Jakob Uszkoreit：德国人，本科：柏林技术大学 CS
Illia Polosukhin: 乌克兰人，本科：乌克兰国立技术大学 CS+应用数学
Noam Shazeer: 犹太人出生在菲律宾，本科：Duke CS。此人重写了整个 transformer 程序
Ashish Vaswani 印度人，PhD USC CS
Niki Parmar 印度人，Master of Science USC CS (和Ashish Vaswani是一对）
Llion Jones 威尔士人，本科 Birmingham 大学 CS
Aidan Gomez 加拿大人/英国人，本科：多伦多大学 CS，PhD：牛津大学 CS
Lukasz Kaiser 波兰人，本科 Wroclaw大学 CS，PhD 亚琛工业大学 CS，OpenAI ChatGPT核心人物

我的几点观察：

1）没有一个美国人
2）灵魂人物都是欧洲人
3）印度人善于参与
4）没多少名牌大学
5）一半PhD，一半没有PhD，灵魂人物Uszkoreit，Polosukhin，Shazeer都是本科
6) 几乎都是 CS 专业

当今最伟大的创新就是这些人制造的，Attention模型革命性超过ChatGPT，因为ChatGPT只是利用Transformer的一个例子，transfomer还用在 Gemini 等等其他大语言模型，以及图像视频AGI（比Text文本更复杂）

[ 打印 ]

[ 加入书签 ]

阅读 () ┆ 评论 (0)

目前还没有任何评论

登录后才可评论.