9月份,德州有个data stream platform的conference。不出意外,现在所有的在Big Data有关的会议都是围绕AI的,包括春季在LA的亚马逊AI专场。整个conference有一天的闭门高层会议和两天的Open Conference,都是在讲GenAI的趋势。闭门会议有个专场讨论,讲到今后AI的发展对今天data management领域工作的影响,有人预计目前依赖的data science的数据处理工作,会被LLM替代。具体的说,今天GenAI需要的数据,80%靠data science engineers, 20%靠工具,趋势是今后80%靠LLM,20%靠engineer。
注:闭门会议的所有录像都不会在YouTube上公开发布,闭门会议的对象都是公司高层管理人员或者技术高层,这段谈话应该在网上找不到,但对今后job market肯定有影响。
且不说,预测是否正确。事实是,除了那些专注于提供AI platform的平台公司,过去十年,工业界的leader们都慢慢接受一个事实,原来大数据提倡的数据好处,过去十年中,很多公司没有享受到。大量的项目和金钱花费在数据搬运上,而不是数据分析和数据产品。有些公司得到一些即时数据的好处,但是相比于对大数据的大量资金人力的投入,这点产出不是正向比例的盈利。 大数据提倡的数据schema自由的理念,慢慢成为今天大多数公司面临海量的垃圾数据的缘由。garbage in garbage out是目前业界的共识。随着而来对data science的职位需求,也会有相连的反思。
闭门会谈提出的口号是shift the right to the left。什么意思呢,就是push到数据源头去定义和控制数据的质量。然后把ML和AI功能move到靠近数据源头,而不是类似今天,把各种数据堆积到数据湖中,再由ML,LLM来分析生成。
这样的话,可预见对data science职位的需求的减少是可能的。
所谓数据源头,放到职位上的解释就是让SWE负起定义数据和数据质量管理,而不是让下游的data science来在数据湖中潜水挖宝。也就是说,原来指望data science能在浩瀚的数据海洋中帮我们找到珍宝的想法,现在SLT们都知道这是不切实际了。过去十年,我一直在帮公司留意寻找合适的数据定义工具,然而市面上的各种工具,都不能被高效应用。那么我们今天又回到了原点。
2010年最早的大数据产品之一,MONGODB发布会上,developer在台上振臂高呼,schema free的景象好像就在眼前。今天的garbage data,与其说是SWE技术问题不如说是一代SWE的文化和信仰,数据定义自由,数据获得自由。造就今天广泛的数据垃圾和数据安全问题。
我本人对2018年后,大学匆忙上马“data science“ 专业一直有保留想法。
文学城子女教育版面,还有不少家长为孩子铺设的大学教育,依然考虑选择data science这个专业。所以我专门写了这个帖子,提醒家长帮孩子选专业时,多知道一些背景资料。
https://bbs.wenxuecity.com/znjy/7058504.html
原帖甚含蓄,在论坛发帖,很容易引起误会和不必要的争论,特别是那些子女已经在读data science专业或者毕业在职位上的父母的紧张,这种心情都可以理解,同时也让理性讨论变得困难重重。
言归正传。如果有将要升学的孩子,喜欢CS,专业还是CS好。Data Science 专业慎重。一家之言,仅供参考。CS专业不会消失,而是会随着科技的发展,调整课程。内核算法,数学应用,逻辑,数据结构这些核心内容变化不会太大。
现如今最火的AI,属于GenAI(
的类别,中文可理解为内容生成性AI。比如CHATGPT。GenAI的性能好坏,严重依靠海量的数据和数据的准确度。这就是为什么Chatgpt可以写文章,因为可靠的用来学习的文章是海量,从有出版开始到今天网络,有几百年的文章都可以用来学习和参考。为什么AI可以写code?因为开源代码的存在,各种考编程的题库,还有各种论坛中讨论和分享的code。有题库就有答案,有成功项目的source code就能够判断什么是可行的code,这些都是可靠数据,可以用来学习判断,可以AI化。还有为什么AI考Step One可以通过,是一样的道理。Step One考试,依靠是现存的知识,特别是记忆的比重还是很大的。Google的AI医疗系统,我没有查到他的病人数据来源。很难想象他们能够用美国病人的数据而没有被公众知道。要知道病人数据的privacy是非常严格的regulation。如果说他们用印度病人的数据,或者病人数据来自其他没有privacy保护的国家,我就不会吃惊了。所以AI 看病离我们还很遥远。扯远了。那么AI真可以替代CS吗?目前还没看到。每家公司的应用有大众性的场景也有特殊的场景,大众场景的AI可能可以提供,这是基于既然是大众场景,那么场景数据也是大众的,可得到的,可判断的,而且够多够海量。但是特殊场景AI没有可依靠的大量数据用来学习,这还是需要人工来思考设计。
从事CS专业有个特点就是不断的迭代更新。比较合适学习能力特别是自学能力强的人,或者有强烈好奇心,navigate能力强的孩子,不一定要考试成绩好,不一定要数学比赛好。成绩和比赛都是基于已经知道的知识,navigation(找不到合适的中文)是消化知识后的串联,是创意,是解决问题。用中文描述就是脑子灵光的孩子。不然,每隔十年的技术升级淘汰,可能就给拍在沙滩上了。不断更新才能做个弄潮者。
如果在DS火的时候,选这个专业顺利毕业入了行,即使这个职位没了,自然有新的职位可以转。而现在在高中的孩子,知道一下趋势,还是有用的。
Data Science 作为正式的本科专业是非常短的时间。2018前后,各大TOP University才相继开出这个专业,然后遍地开花。而大数据红利已接近尾声。我们幸运的是,大数据泡沫没有爆。市场充足的资金,让这个新技术直接无缝连接到GenAI。 而在大数据红火的时候,MIT和Standford都是最早提供相关的Online program(Coursera - S 和 edX - MIT) 。
但是DS本身发展速度非常快,淘汰的也快,比如Hadoop,眼看他起高楼,眼看他楼倒了。DS类知识,更合适用提供即时紧跟技术的选修课或者技术培训的方式,而不是一个新专业的设立。当然这只是我个人意见。MIT好像至今都没有DS专业,但是有很多相关课程,MIT果然是老牌STEM学校,这种做法是非常成熟且对学生负责的。
现在的网友不知道还有多少人记得MIS(信息管理专业),30年前很火吧。现在不见了踪影。Data Science作为本科专业,会不会像MIS那样,昙花一现呢?