我们总结下重点框架:
语言:Java 和 Scala(语言以这两种为主,需要重点掌握)
Linux(需要对Linux有一定的理解)
Hadoop(需理解底层,能看懂源码)
Hive(会使用,理解底层SQL转化原理及优化)
Spark(能进行开发。对源码有了解)
Kafka(会使用,理解底层原理)
Flink(能进行开发。对源码有了解)
HBase(理解底层原理)
Zookeeper(会用,最好理解原理)
Sqoop、Flume、Oozie/Azkaban(会用即可)
如果走数仓方向,需要掌握以下技能:
离线数仓建设(搭建数仓,数仓建模规范)
维度建模(建模方式常用的有范式建模和维度建模,重点关注维度建模)
实时数仓架构(两种数仓架构:Lambda架构和Kappa架构)
不管离线还是实时,重中之重就是:SQL。多找一些SQL题练习!
等工作之后,有时间还需要学习比较流行的 OLAP 查询引擎:
Impala 、Presto、Druid 、Kudu 、ClickHouse 、Doris
如果还有时间,需学习数据质量及数据治理相关的内容!
另还有元数据管理工具:Atlas
数据湖-Data Lake 三剑客:Delta、Hudi、Iceberg