杜架的技术月刊(202212期)
杜架的技术月刊,主要关注计算机领域,记录本月看到的有价值的信息,主要包含:碎片化思考,阅读笔记分享,开源项目(软件)介绍。内容主题可能有极大的个人喜好偏向,努力做个输出的人,爱我所爱,想我所想,写我所写。
西安.雪
思考
大数据未来发展的趋势在哪里?
在腾讯全球数字生态大会上,腾讯云对这个赛道发展趋势的判断:云原生,数据治理,数智融合,隐私计算。结合自己在公司所接触的情况,我个人比较看重:云原生,数据治理,数智融合 。
云原生
我们公司的技术栈早在 2016 年基本已经全部容器化,redis, mysql,elasticsearch ,kafka 等基础设施早已容易化,但 hadoop 体系却没有容器化,总体感觉大数据体系在云原生化进展特别缓慢,但云原生化带来的收益是很大的,各种云厂商的弹性 MapReduce 也早已在提供服务。
云计算领域非常著名的计算存储分离的架构也慢慢在深入到一些基础设施,该架构也是 kafka 未来最大目标之一。Pulsar 从设计之初就将它列为设计目标之一。
大数据技术本身对硬件资源消耗的要求,对软件运维的要求等各方面,都表明,只有拥抱云原生,大数据才能够避免高门槛,难度大等一系列问题,真正成为所有客户的选择
数据治理
对于这方面,我没有经验,只是在我们内部面临了各种数据层面的问题,数据不可知,数据不可控,数据不可取,数据不可连等等问题,在这个领域也有很多数仓,数据湖(Delta Lake、Iceberg 和 Hudi),元数据管理等产品。
往往企业向数据化转型的途中,使用数据的同时会涉及到很多痛点,这些痛点可能来源于业务、技术、运维、产品等不同的和数据相关的成员
数智融合
自从深度学习技术发展起来以后,人工智能达到了一个新高度。深度学习离不开大量的计算来产生复杂的模型,同样也离不开大量的数据输入进行训练。可以说人工智能的最新进展,就是算力巨大进步和大数据技术的发展相结合的产物。
这种人工智能和大数据结合产生的智能决策的潜力是巨大的,互联网巨头们比如谷歌,脸书,亚马逊,已经通过这一技术的突破赚得盆满钵满。
最近在做公司的个性化推荐,确实学习到了很多新的思路和方法,深度学习的做法和统计学的做法区别很大,存在一定的不可解释性,这方面值得期待。