小高技术网-免费分享创业技术、为农村创业者服务!
当前位置: 小高技术网 > 技术常识4>正文

数据栈学什么技术好就业(数据栈学什么技术好)

2023-03-04 12:18:01 技术常识4 手把手教

【温馨提示】本文共有7069个字,预计阅读完需要18分钟,请仔细阅读哦!


作为一名后端开发者,你需要学习和掌握的技术栈都有哪些呢?,下面一起来看看本站小编专业防护工程部给大家精心整理的答案,希望对您有帮助

数据栈学什么技术好1

开发一个普通管理系统,会用到SprinBoot+MyBatis+Spring+Mysql+Redis+RabbitMq+Nginx+Vue+Shiro+html+等等,这些技术合起来就可以称为技术栈。那么作为一名后端开发者,你需要学习和掌握的技术栈都有哪些呢?今天小千就来给你介绍一下。

1、Struts

Struts是Apache基金会的一个开源项目,广泛应用于大型互联网企业、政府、金融机构等网站建设,并作为网站开发的底层模板使用。一个是Stuts1 ,一个是Stuts2。技术方面,Stuts1有个核心控制器,但是只提供了一个接口,也就是execute,还要配置action、form之类的,很麻烦,所以依赖性比较强;而Stuts2是针对拦截器开发的,也就是所谓的AOP思想,可以配置多个action,用起来比较方便,但是因为请求之前的拦截器有一些注入的操作,速度相对Stuts1来说慢一点。

2、Spring

Spring框架是个轻量级的Java EE框架。所谓轻量级,是指不依赖于容器就能运行的。

Spring以IoC、AOP为主要思想,其中IoC,Inversion of Control 指控制反转或反向控制。在Spring框架中我们通过配置创建类对象,由Spring在运行阶段实例化、组装对象。AOP,Aspect Oriented Programming,面向切面编程,其思想是在执行某些代码前执行另外的代码,使程序更灵活、扩展性更好,可以随便地添加、删除某些功能。Servlet中的Filter便是一种AOP思想的实现。

Spring同时也是一个“一站式”框架,即Spring在JavaEE的三层架构[表现层(Web层)、业务逻辑层(Service层)、数据访问层(DAO层)]中,每一层均提供了不同的解决技术。

3、持久层框架Mybatis

MyBatis是一款优秀的持久层框架,它支持定制化SQL、存储过程以及高级映射。它是轻量级持久层框架,由ibatis演化而来。它自动连接数据库,将数据库的结果集封装到对象中POJO。

Mybatis它是轻量级持久层框架,由ibatis演化而来。它自动连接数据库,将数据库的结果集封装到对象中POJO。

在这里插入图片描述

4、Spring Boot

Spring Boot基本上是Spring框架的扩展,它消除了设置Spring应用程序所需的XML配置,为更快,更高效的开发生态系统铺平了道路。

5、分布式/微服务Spring Cloud

Spring Cloud是一系列框架的有序集合。它利用Spring Boot的开发便利性巧妙地简化了分布式系统基础设施的开发,如服务发现注册、配置中心、消息总线、负载均衡、断路器、数据监控等,都可以用Spring Boot的开发风格做到一键启动和部署。

6、安全框架Shiro

Apache Shiro是一个开源的轻量级的Java安全框架,它提供身份验证、授权、密码管理以及会话管理等功能。相对于Spring Security, Shiro框架更加直观、易用,同时也能提供健壮的安全性。

Shiro框架相比于Spring Security更加轻量级,但是它也提供了一些基础的,能满足日常开发所需的权限控制功能。

7、项目管理Maven

Maven是一个构建工具,这个构建工具能够帮助你更好的管理包的依赖、还能够为你实现项目的热部署、还能为你运行所有的测试用例、还能够为你项目的打包、发布、还能够实现项目的多模块构建。

8、服务器软件Tomcat

Tomcat是由Java开发且符合JavaEE的Servlet规范的JSP服务器,是Apache的扩展。

数据栈学什么技术好2

现代数据栈或数据栈是作为企业数据基础架构基础的云原生应用程序的集合。现代数据栈的概念已迅速普及,并已成为各种规模的组织从数据中提取价值的事实上的方式。与工业价值链一样,现代数据栈遵循摄取、转换、存储和产品化数据的逻辑。

本博客是对现代数据栈的介绍,在接下来的文章中我们将深入探讨每个不同的组件。‍

什么是现代数据栈?

现代数据栈可以定义为用于将原始数据转换为可操作的业务洞察力的不同技术的集合。源自这些不同工具的基础架构可用于降低管理数据平台的复杂性,同时确保数据得到充分利用。公司可以采用最适合其需求的工具,并且可以根据用例添加不同类型的层。‍

现代数据栈简史

几十年来,本地数据库足以满足公司为其用例存储的有限数据量。然而随着时间的推移,数据量呈指数级增长,这要求公司找到解决方案来保留所有信息。这导致了新技术的出现,使组织能够处理大量数据,如 Hadoop、Vertica 和 MongoDB。这是 2000 年代的大数据时代,当时系统通常是分布式 SQL 或 NoSQL。‍ 大数据时代持续了不到十年,但在 2010 年代初和中期被广泛采用的云技术打断。传统的本地大数据技术难以迁移到云端。与更敏捷的云数据仓库相比,它们更高的复杂性、成本和所需的专业知识使它们处于劣势。这一切都始于 2010 年的 Redshift——几年后 BigQuery 和 Snowflake 紧随其后。

使现代数据栈得到广泛采用的变化

重要的是要记住,我们目前所知道的现代数据栈是数据的最新发展。只有最近的技术变化才能让公司充分利用其数据的潜力。让我们来看看支持采用现代数据栈的一些关键发展。

‍云数据仓库的兴起

2012 年,当亚马逊推出 Redshift 时,数据仓库格局发生了显著的变化。当今市场上的所有其他解决方案(例如 Google BigQuery 和 Snowflake)都遵循了亚马逊发起的革命。这些数据仓库工具的开发与 MPP(大规模并行处理)或 OLAP 系统(如 Redshift)和 OLTP 系统(如 PostgreSQL)之间的差异有关。但我们将在关注数据仓库技术的博客上更详细地讨论这个话题。

那么云数据仓库发生了什么变化?

  • • 速度级别:云数据仓库显着减少 SQL 查询的处理时间。在 Redshit 之前,计算缓慢是大规模利用数据的主要障碍。

  • • 连接性:云数据仓库将数据源连接到数据仓库在云中要容易得多。最重要的是云数据仓库管理的格式和数据源比本地数据仓库多。

  • • 用户可访问性:本地数据仓库由中央团队管理。这意味着最终用户的访问受到限制或间接访问。另一方面,所有目标用户都可以访问和使用云数据仓库。这自然会在组织层面产生影响。也就是说本地数据仓库限制了保存服务器资源的请求数量,从而限制了充分利用可用数据的潜力。

  • • 可扩展性:云数据仓库的兴起使得越来越多的人可以访问数据成为可能,使组织内数据民主化。

  • • 可负担性:云数据仓库的定价模型比传统的本地解决方案(如 Informatica 和 Oracle)灵活得多,因为它们基于存储的数据量和/或消耗的计算资源。‍

从 ETL 到 ELT

在之前的博客[1]中,我们已经讨论过从 ETL 过渡到 ELT 的重要性。简而言之,通过 ETL 流程,数据在加载到数据仓库之前进行了转换。另一方面,使用 ELT,在进行任何转换之前将非结构化数据加载到数据仓库中。数据转换包括清理、检查重复项、使数据格式适应目标数据库等等。在数据加载到仓库之前进行所有这些转换可以让公司避免数据库过载。这就是传统数据仓库解决方案如此依赖 ETL 的原因。随着云的兴起,存储不再是问题,管道管理的成本也急剧下降。这使组织能够将所有数据加载到数据库中,而无需在提取和摄取阶段做出关键的战略决策。

‍自助分析和数据民主化

云数据仓库的兴起不仅促进了从 ETL 到 ELT 的过渡,而且也促进了 Power BI、Looker 和 Tableau 等 BI 工具的广泛采用。这些易于使用的解决方案允许组织内越来越多的角色访问数据并做出数据驱动的业务决策。

云数据仓库是唯一重要的吗?

重要的是要记住,仅仅拥有一个基于云的平台并不能使数据栈成为现代数据栈。正如 Jordan Volz 在他的博客[2]中所写,许多云架构无法满足被纳入该类别的要求。对他而言,技术需要满足五项主要功能才能包含在现代数据栈中。

  • • 它需要以云数据仓库为中心

  • • 它必须作为托管服务提供:只需最少的设置工作和用户配置

  • • 它使数据民主化:这些工具的构建方式使组织内尽可能多的人可以访问数据

  • • 弹性工作负载

  • • 它必须将自动化作为核心竞争力

现代数据栈的主要组件

现代数据栈的目标是使数据更具可操作性,并减少从组织中的信息中获取洞察所需的时间和复杂性。然而由于数据工具和技术的数量不断增加,现代数据栈变得越来越复杂。让我们分解现代数据栈中的一些关键技术。各个组件可能会有所不同,但通常包括以下内容:

数据集成

主要工具:Airbyte[3]、Fivetran[4]、Stitch[5]、Portable[6]

组织从各种系统(如数据库、CRM 系统、应用程序服务器等)收集大量数据。数据集成是将这些不同源系统中的数据提取并加载到单个统一视图中的过程。数据集成可以定义为将数据从整个企业发送到集中式系统(如数据仓库或数据湖)的过程,从而形成一个单一、统一的位置,用于访问流经数据中心的所有信息。

数据转换/建模

主要工具:dbt[7]

如果原始数据没有以允许组织对其进行分析的方式结构化,那么它就完全没有用。这意味着需要先转换数据,然后才能使用它来获得洞察力并预测业务。数据转换可以定义为改变数据格式或结构的过程。正如我们在本博客[8]中所解释的,数据可以在数据管道的两个不同阶段进行转换。通常使用本地数据仓库的组织使用 ETL(提取、转换、加载)流程,其中转换发生在中间——在数据加载到仓库之前。

但是当今大多数组织都使用基于云的仓库,这使得可以显着增加仓库的存储容量,从而允许公司存储原始数据并在需要时对其进行转换。该模型称为 ELT(提取、加载、转换)。

工作流编排

主要工具:Airflow[9]、Dagster[10]

一旦你决定了转换,你需要找到一种方法来编排它们,以便它们以你喜欢的频率运行。数据编排使与数据摄取相关的流程自动化,例如将来自多个来源的数据汇集在一起,将其组合起来,并为分析做准备。‍

数据仓库

主要工具:Snowflake[11]、Firebolt[12]、Google BigQuery[13]、Amazon Redshift[14]

如果不访问仓库则无法访问数据,因为数据仓库是一个连接所有其他部分的地方。因此所有数据都会流入和流出数据仓库。这就是为什么我们认为它是现代数据栈的中心。‍

反向 ETL

主要工具:Hightouch[15]、Census[16]

简单来说,反向 ETL 就是 ETL 的逆过程。基本上是将数据从仓库转移到外部系统(如 CRM、广告平台或任何其他 SaaS 应用程序)以使数据可操作的过程。换句话说反向 ETL 允许将数据仓库中的数据提供给业务团队——弥合数据团队的工作与最终数据消费者的需求之间的差距。这里的挑战与越来越多的人要求组织内的数据有关。这就是为什么今天的组织旨在参与所谓的运营分析,这基本上意味着将数据提供给运营团队(如销售、营销等)以用于功能用例。但是,由于缺乏将数据直接从仓库转移到不同业务应用程序的管道,业务团队难以访问云数据仓库并充分利用可用数据。数据仓库中的数据的使用仅限于创建仪表板和 BI 报告。这就是反向 ETL 对于完全使用数据至关重要的地方。‍

商业智能与分析

主要工具:Power BI[17]、Looker[18]、Tableau[19]

BI 和分析包括允许访问组织收集的数据以优化业务决策和绩效的应用程序、基础架构和工具。

数据可观测性

数据可观测性已成为现代数据栈不可或缺的一部分。对 Gartner 而言,数据可观测性对于支持和增强任何现代数据架构至关重要。正如我们在本博客[20]中所解释的,数据可观测性是 DevOps 世界中的一个概念,适用于数据、数据管道和平台的上下文。与软件可观测性类似,数据可观测性使用自动化来监控数据质量,以便在潜在数据问题成为业务问题之前识别它们。换句话说,它使数据工程师能够监控数据并快速解决任何可能的问题。随着组织每天处理更多数据,他们的数据栈变得越来越复杂。同时不容忍不良数据,这使得全面了解数据管道的状态以监控质量、性能或效率的损失变得越来越重要。最重要的是组织需要在数据故障传播之前识别它们,从而了解在数据灾难的情况下下一步该做什么。‍ 数据可观测性可以采取以下形式:

  • • 观测数据和元数据:这意味着监控数据及其元数据以及历史模式的变化,并观察准确性和完整性。

  • • 观测数据管道:这意味着监控数据管道和元数据中关于数据量、频率、模式和行为的任何变化。

  • • 观测数据基础设施:这意味着监控和分析查询日志中的处理层日志和操作元数据。

这些不同形式的数据可观测性有助于数据工程师和分析工程师等技术角色,也有助于数据分析师和业务分析师等业务角色。

有完美的数据栈吗?

现在可能会问自己:每个组织都应该采用完美的数据栈吗?回答是否定的。在选择最佳工具和技术来处理数据时,没有一种万能的方法。每个组织都有不同的数据成熟度、不同的数据团队、不同的结构、流程等等。但是我们可以将现代数据栈分为三个不同的组:基本、中级和高级。

基本数据栈

一个基本的数据栈应该能够使用 dbt 或自定义 SQL 摄取、存储、建模数据,然后根据用例,组织制定其反向 ETL 流程以进行运营分析或投资于 BI 工具。通常基本数据栈中的 BI 工具是开源工具,例如 Metabase[21]。最重要的是一个基本的数据栈包括测试或数据质量监控的基本形式。‍

中级数据栈

中级数据栈要复杂一些,除了我们上面描述的内容之外,它还包括某种形式的工作流编排和数据可观测性工具。基本测试和数据质量监控使团队能够了解数据资产的质量状态。但是它们无法提供知道如何快速解决潜在问题的方法。这就是数据可观测性的用武之地。整个数据栈(日志、作业、数据集、管道、BI 仪表板、数据科学模型等)的数据可观测性信号 - 支持大规模监控和异常检测。

高级数据堆栈

高级数据堆栈包括以下技术和工具:

  • • 集成:使用 Airbyte、Fivetran 和 Segment 等工具将数据从一个地方提取并加载到另一个地方

  • • 仓储:将所有数据存储在一个地方——使用 Snowflake、Firebolt、Google BigQuery 和 Amazon Redshift 等工具

  • • 转换:将数据转化为可用数据——使用 dbt 等工具

  • • 工作流程编排:使用 Airflow 和 Dagster 等工具将来自不同来源的数据汇总、组合并为分析做准备

  • • 反向 ETL:将数据从仓库移动到外部系统——使用 Hightouch 和 Census 等工具

  • • BI 和分析:使用 Power BI、Looker 和 Tableau 等工具分析组织收集的所有信息并做出数据驱动的决策

  • • 数据可观测性:确保数据在数据的整个生命周期内(从摄取到 BI 工具)都是可靠的。数据可观测性不是一个组件,而是现代数据栈的监督层。‍

结论

在过去的几年里,基础设施、技术、流程和实践以惊人的速度发生了变化。云的兴起、云和存储的隔离以及数据民主化阻碍了现代数据栈的运动。请记住没有一种万能的方法,而且它是针对特定用例的——取决于组织的数据成熟度级别、数据团队等因素。在此博客[22]上详细了解我们认为您应该如何根据组织的成熟度来建立现代数据团队。‍

许多人认为数据仓库是现代数据栈的中心。因此为了更好地描述数据管道每个阶段所需的不同流程和工具,我们创造了“仓库左侧”和“仓库右侧”这两个术语。我们基本上将数据仓库之前发生的所有事情称为“左侧”,将数据仓库之后发生的所有事情称为“右侧”。在以下博客中,我们将描述现代数据栈左侧发生的情况,从第一步开始:数据集成。

引用链接

[1]之前的博客:[https://www.siffletdata.com/blog/survival-of-the-fittest-etl-vs-elt](https://www.siffletdata.com/blog/survival-of-the-fittest-etl-vs-elt)

[2]博客:[https://medium.com/@jordan_volz/whos-who-in-the-modern-data-stack-ecosystem-fall-2021-69d8b46b2e88](https://medium.com/@jordan_volz/whos-who-in-the-modern-data-stack-ecosystem-fall-2021-69d8b46b2e88)

[3]Airbyte:[https://airbyte.com/](https://airbyte.com/)

[4]Fivetran:[https://www.fivetran.com/](https://www.fivetran.com/)

[5]Stitch:[https://www.stitchdata.com/](https://www.stitchdata.com/)

[6]Portable:[https://portable.io/](https://portable.io/)

[7]dbt:[https://www.getdbt.com/](https://www.getdbt.com/)

[8]本博客:[https://docs.google.com/document/d/1mLbJ-sHw-NTT30d7ta1Xs4Bqzjp-jYUUhWdHjh6hFo0/edit](https://docs.google.com/document/d/1mLbJ-sHw-NTT30d7ta1Xs4Bqzjp-jYUUhWdHjh6hFo0/edit)

[9]Airflow:[https://airflow.apache.org/](https://airflow.apache.org/)

[10]Dagster:[https://dagster.io/](https://dagster.io/)

[11]Snowflake:[https://www.snowflake.com/](https://www.snowflake.com/)

[12]Firebolt:[https://www.firebolt.io/](https://www.firebolt.io/)

[13]Google BigQuery:[https://cloud.google.com/bigquery](https://cloud.google.com/bigquery)

[14]Amazon Redshift:[https://aws.amazon.com/redshift/](https://aws.amazon.com/redshift/)

[15]Hightouch:[https://hightouch.com/](https://hightouch.com/)

[16]Census:[https://www.getcensus.com/](https://www.getcensus.com/)

[17]Power BI:[https://powerbi.microsoft.com/en-au/](https://powerbi.microsoft.com/en-au/)

[18]Looker:[https://www.looker.com/](https://www.looker.com/)

[19]Tableau:[https://www.tableau.com/](https://www.tableau.com/)

[20]本博客:[https://medium.com/@salmabakouk/data-quality-monitoring-is-dead-say-hello-to-full-data-stack-observability-f73cac27ea52](https://medium.com/@salmabakouk/data-quality-monitoring-is-dead-say-hello-to-full-data-stack-observability-f73cac27ea52)

[21]Metabase:[https://www.metabase.com/](https://www.metabase.com/)

[22]此博客:[https://www.siffletdata.com/blog/how-to-build-a-modern-data-team](https://www.siffletdata.com/blog/how-to-build-a-modern-data-team)

数据栈学什么技术好3

前面写了一篇大数据行业介绍,后台有很多小伙伴私信我大数据该如何学,简历该如何优化?尤其很多准备转行大数据的小伙伴,初级入门者,有较多困惑,简历写得天花乱坠,面试总是一面就挂,学习没有重点,找不到突破方向等等。

前一篇地址:写给大数据初级开发者或准备转行大数据的人

1.大数据该如何学?

1.1方向的选择

为什么我一定要强调方向的选择,因为在有限的时间内,对于初级入门者,转行的同学最重要的是术业有专攻。要用有限的时间,去做收益最高的事,所以要在有限的时间内,选择一个方向,突破一个方向,而不是全面开花。先保证可以找到一份工作,在工作中学习,让两者相辅相成,理论与实践互相反哺,将学习的成本降到最低。 同样这个思路试用于所有的IT技术的学习。

说实在之前也没正儿八经的大数据专业毕业的人,大家都是半路出家的,也都是自学的。那如何高效的自学呢? 网上或者培训机构那种全栈的培训线路图,呵呵,从java,linux,到整个大数据生态的各种组件,为了显示自己课程齐全,恨不得都给你整齐,全家桶,结果是每个模块都蜻蜓点水。让人望而生畏,学习找不到重点,涉猎也只是皮毛。

1.1.1大数据“开发”的方向分类

离线开发,

实时开发

大数据运维(数据中台等)

三者的难度而已,离线数据开发最容易入门,岗位最多,也是网上最容易招聘到的人,大数据运维(中台)个人觉得是最有前途的。可以通过下面技术栈的剖析选择适合自己的学习

1.2 大数据方向解析

所有的大数据学习操作,必不可少的是集群,所以可以先从自己搭建一个集群开始,而对于初学者最好的,最方便的,最适合入门的就是CDH集群的搭建,使用CM管理的集群。可以参考搭建:超详细版企业离线部署CDH6.10集群与配置使用

搭建集群只是为了方便你学习,数据开发人员在绝大多数公司都不会接触到集群的运维,搭建,底层的东西,会有专门的人员维护。所以如果做数据开发岗位,会使用相关组件即可。

1.2.1离线开发技术栈分析

1.重点需要掌握的理论,初级开发者主要用来应对面试:

  • hdfs基础理论,数据读写流程
  • MapReduce基本原理,数据计算过程,shuffl
  • Hive的基础理论,常见的性能优化,包括参数优化,sql优化,数据倾斜等
  • Hive是重点,数据治理,存储格式,常见的报错异常分析等
  • SQL的执行流程
  • Spark sql的使用,Spark的基本概念,基本函数的使用,性能优化,参数优化;
  • 数仓建模步骤,数据仓库建模注意事项等,数仓分层理论等,数据治理,数据质量等
  • 基本linux的命令的使用,小公司很多用shell封装的脚本调度
  • 了解熟悉基本JAVA SE概念,使用(看公司,有点公司会问,中小公司有点不问,或者不会也没啥),当然后期还是可以学会JAVA,后期拓展性更强。
  • 2.重点需要掌握的实战

  • 熟练Hive常见的函数的使用,尤其是函数的套用分析,官网上,也就那几十个重点。
  • 熟练掌握Hive窗口函数分析函数,行转列,列转行等,初级开发一般会给数据让你写函数统计分析,所以网上看下常见的数据分析。
  • Hive常见的性能优化,参数优化:可以自己测试实例,知道有哪些方向。很多小型公司其实根本用不着,或者说常见的参数性能优化都会在集群层面配置好,不用每个开发在代码里前置优化,比如小文件的治理,启用压缩,默认存储格式,调度策略,严格模式,开启数据倾斜负载均衡等等。一般需要在代码里配置也就是比如内存溢出,调整下内存,动态分区等。常见优化系列 比如hive一般必问的数据倾斜之类的。
  • 熟练掌握SQL使用,可以写出较位复杂的业务场景的SQL,这也是工作中用到最多的。熟练掌握SQL优化,所以一定要掌握SQL的执行流程才懂得优化。SQL执行流程
  • 其他就是hive常见的"CRUD"语法的使用。尤其是分区表的操作。
  • spark的基础语法,看公司,一般公司离线hive居多,也有部分需要spark的,也有公司离线也已Spark为准。Spark基本的性能优化。
  • 对于初学者,离线分析的话,主要重点掌握这些,后续可以不断深入或者拓展。其他的有时间了解最好。

    1.2.1实时开发技术栈分析

    实时分析具体技术栈就看公司规模了,相比离线实时难度会更加高,所以初学者,转行的同学,不建议直接实时,可以先做一年离线熟悉整个技术框架后,熟悉大数据开发后在逐步学习实时,因为实时技术栈学习的知识点较多,难度较大。

    实时主要分为数据接入flume/kafka,很多公司也不用flume了,Sparkstreaming/flink数据清洗(storm基本淘汰了),redis缓存,Hbase数据存放供实时查询,或者直接入数仓供离线T+1分析,后者搞些大屏等,存储也有多种看实际需求。

    所以一般实时主要在这三个方向,数据接入,数据清洗,数据存放。可能干其中一步,也可能干整个流程(针对小型公司)。当然数据接入kafka这块,基本配置完数据源后,后期变动不大。主要还在数据清洗这块。SparkSreaming/Flink,这块需要用JAVA/Scala开发等。相对学习的东西比较多。可以选择熟练重点掌握一个组件,如Kafka,重点突破,源码,性能优化等。也可以重点突破Flink或者Hbase,都会有市场的。

    建议重点掌握几个组件其中之一,重点突破,这样会有突出点。

    1.3.1大数据运维技术栈

    一般中小型公司,使用Cdh集群比较多,集群规模一般在十几台到一两百台居多,一般运维1-5人居多,更多的是两三个人,当然也有些中小型公司选择上云,使用云服务部署集群节省服务器硬件损耗以及运维的成本。大公司上千台,上万台都是使用apache 然后自我定制的版本的,运维团队人员也多,几十人,上百人。

    大数据运维,一般很少公司你去了需要搭建集群的,一般公司在你去后都是运维现存到的集群。即使需要搭建小集群的,选择CDH集群也比较简单。(超详细版企业离线部署CDH6.10集群与配置使用 ) 集群的运维中其实集群搭建是最简单,集群的安全运维和优化才是重点,如何保证集群的高可用才是目的,比如指标的采集,监控,自动化运维,告警,集群的性能优化,管理平台的搭建等等,包括组件的二次开发,日常高负载时性能问题的优化,有些需要深入熟悉内核,有些则需要经验配合。

    初级大数据运维技术栈:

  • 了解/掌握基本的服务器硬件配置相关信息,网络架构,交换机,ip,dns的基本使用与原理(可做了解,一般公司会有专门搞硬件这块的基础运维,当然现在的大数据运维也是之前基础运维转来的)
  • 熟悉掌握linux操作系统的安装(Centos,ubuntu等),安装配置,以及之后基本的优化,比如实现批量化安装,相关工具ansible等使用。
  • 熟练使用shell编程,linux常用的命令,运维相关的命令。
  • 熟悉掌握大数据相关组件的安装配置,集群的搭建,CDH集群安装配置一定要掌握,Apache版本的官网也有,跟着步骤来即可,没必要记清楚每一步,忘了网上查,但是要搭建一次。
  • 熟悉大数据集群常见的组件的基本原理与基本知识点,初级前期可以不用很深入。重点掌握hdfs/HA,yarn/HA,Zookeeper, 计算引擎hive,spark等。尤其是组件之间的配合使用原理,集群架构等。
  • 熟悉常见集群的参数优化,分为存储和计算,存储如hdfs常见的参数优化,计算引擎Hive、spark等常见参数优化。
  • 熟悉大数据常见的监控指标,具体可以参考CDH集群里的监控指标。apache集群监控指标的采集,展示方案,如grapha等。
  • 集群遇到的生产问题处理,比如JN挂了,Namenode重启,集群节点退役,扩展集群等等,包括组件的升级。
  • 2.简历优化与面试

    简历的书写很重要,很重要。因为面试官一般通过预览简历决定了这个人是不是自己需要招聘的人,决定了你有没有初面的机会。所以一定要在你简历里突出企业招聘需要的技术栈或者工作经验。一般面试官初筛简历:学校(是否名校)+工作背景(是否大厂)+技术栈/项目经验(技术是否深入),所以三维之中一定要有一维突出。其次简历的排版一定要整齐,用PDF,而不是Word。简历最好2-4页,不要1页太单薄。

    所以,比如面试大数据开发,离线/实时,简历一定要突出重点。比如你面离线或者实时,简历中就突出上面对应的技术栈,以及对应技术栈的性能优化,对应技术栈的项目经验。比如面数仓开发技术栈写熟练掌握Hive的函数相关函数的使用,熟练进行业务开发;熟练大数据数仓建模;熟练掌握Hive常见异常分析,性能优化,数据治理,熟练掌握spark用于业务分析等。以及对应的技术栈的项目或数据分析经历。

    核心技术点,一定要写到性能优化,不能所有的技术栈都是描述性的信息,而且要用专业化的技术语言描述。项目要写出业务难点与技术的结合,突出业务与技术的实现。比如下面这种就不太好。

    简历的优化,只能结合实际修改。毫不夸张地说我认识的某大厂一大哥,工作好几年的老油子了。每次换工作简历都会花几百块钱在某招聘网站找人优化, 从排版到话术,技术栈的描述,包括一些常见问题的指导,确认效果很奈斯,可以参考下。现在大哥薪水越来越高,面试也助力不少。

    同样技术的人,会面试的人和不会面试的人可能前者可以拿到offer后者不被录取,毕竟在那么短的时间内如何有效地展示自己,显露自己的技术,确实是个技术活。

    尖叫提示:图片双击放大,或者保存本地查看详细

    1.附资深大数据开发完整课程体系与规划

    ​ 资深大数据开发学习路线

    2.附资深大数据运维完整课程体系与规划

    ​ 资深大数据运维学习线路图

    数据科学与大数据技术(数据科学与大数据技术”专业为啥会这么火)


    内容更新时间(UpDate): 2023年03月04日 星期六

    版权保护: 【本文标题和链接】数据栈学什么技术好就业(数据栈学什么技术好) http://www.youmengdaxiazuofa.net/longxia8/82052.html






















    你的评论更有价值!!!
    • 全部评论(0
      还没有评论,快来抢沙发吧!
    博客主人百科博主
    女,免费分享各种生活、电商知识、百科常识。
  • 文章总数
  • 100W+访问次数
  • 建站天数
  • {/dede:arclist}