大数据作为时下最火热的IT行业的词汇,随之而来的数据仓库、数据安全、数据分析、数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士争相追捧的利润焦点。随着大数据时代的来临,大数据分析也应运而生。如果您对大数据感兴趣就来千锋教育,如果您感兴趣就来千锋教育,千锋教育致力于为企业提供全方位综合人才服务等,下面有更详细的课程介绍。
想从事大数据岗位人群
线下面授、线上直播、线上录播、根据课程制定
随到随学
从入门到精通
成为大数据分析师人才
全面掌握所学企业实用技能
高薪入职国内外名企成就自我
免费试学,简历指导,面试模拟,推荐全国就业;
理论知识+项目实操+案例详解+助教督学+就业指导;
真实项目实战,课程内容更新迭代快,适应当前技术发展需要
掌握能力
掌握企业级基建环境部署、Hive和Spark数据开发、数据仓库搭建、数据抽取、数据清洗、数据转换、数据加载、数据应用和京东离线ETL。
胜任职位
离线数据工程师、数据仓库工程师、ETL工程师、数据采集工程师、数据支持工程师、BI商业分析师、数据可视化工程师、Hadoop工程师、Spark工程师
技术点
Java、MySQL、Maven、Git、OpenResty、Linux、Shell、HDFS、YARN、Zookeeper、MapReduce、Scala、Python、SparkCore、Hive、SparkSQL、Presto、Sqoop、DataX、Flume、CDH、数仓架构、维度建模、SuperSet、Azkaban、Airflow等。掌握企业级基建环境部署、Hive和Spark数据开发、数据仓库搭建、数据抽取、数据清洗、数据转换、数据加载、数据应用和京东离线ETL。
项目
数据服务、大数据可视化、企业级Hadoop基建项目部署、分布式网络爬虫、基于Spark的大数据分析项目、ETL项目之Hive和SparkSQL、BI商业分析等。
掌握能力
掌握流数据接入、基于Flink实时数据开发、流批一体数据仓库开发、数据湖开发、实时ETL、实时监控系统和京东实时数据开发
胜任职位
实时工程师、Flink工程师、实时数据仓库工程师、实时ETL工程师、Spark工程师
技术点
Kafka、Structured Streaming、Hudi、Canal、Flink、ClickHouse、HBase、Phoenix、Elasticsearch、Redis
项目
实时监控系统、基于Flink的实时数据开发、实时数据湖、大数据搜索系统
掌握能力
掌握企业项目开发流程、用户画像开发、企业级推荐系统开发、数据治理、基于生产环境项目部署和京东项目性能调优
胜任职位
数据服务工程师、离线数据仓库开发工程师、BI商业分析师、实时数据仓库工程师、实时监控系统工程师、ETL工程师、数据可视化工程师、数据治理工程师、高级数据开发工程师、推荐工程、数据平台工程师、数据架构师
技术点
数据采集与监控平台、准实时数据仓库、用户画像、推荐系统、基于Flink的实时数据仓库、元数据管理与数据治理。
千锋与京东物流合作共建大数据培训课程体系,企业热门技术全方位涵盖 融入真实项目案例和工程实践创新
项目介绍
随着互联网的发展,数据源头越来越多且是分散的,除了业务库,APP 埋点,web 网站 log,LOT 设备等会产生各种各样的海量数据,这些数据在进入数据仓库之前(或之后),需要进行统一(字段定义、主题归属、项目划分等),数据集成在一起。离线数仓的ETL,涵盖数据的抽取转换与加载。
项目目标
在数据仓库中构建模型,从数据源中抽取数据,然后对这些数据进行转化,最终加载到目标数据库或者数据仓库中去,实现离线数仓ETL的过程。
项目介绍
企业信息化发展,数据源丰富,数据量比以往结构化的数据大了几个量级,对 ETL 过程、存储都提出了更高的要求。互联网的在线特性也对实时性提出了要求,如用户反欺诈、用户审核等随着用户的暴涨。实时数据开发,主要是对由用户行为、业务行为等产生的巨大量数据进行实时处理,并应用到生产中。
项目目标
基于分层的模型 ods/dwd/dws/,业务数据和日志数据,事实数据存储在 kafka 中,维度数据存储在 Hbase/Tair 中,dm 层的数据最终导出到 mq/olap/rds/kv 中。ad-hoc 查询基于 Flink 来做。实时数仓的存储需考虑支持数据重放,方便支持任务重跑。选择一个具有重放功能的、能够保存历史数据并支持多消费者的消息队列,根据需求设置历史数据保存的时长,通过实时数据开发,建成实时数仓、实时指标等,支撑企业链路的实时化。
项目介绍
大数据采集与指标监控项目是基于第一阶段和第二阶段课程,贯穿离线数据上报、数据储存、数据服务监控、数据分析等全套流程。整个项目包括Flume自定义拦截器代码、自定义Azkaban监控代码和SQL相关指标代码开发。
项目目标
解决离线数据上报流程,数据采集操作,flume和azkaban的二次开发,数据服务监控,离线数据开发流程。
项目介绍
HDFS+Flume+Sqoop+数仓思想+Spark
SQL/Hive+Azkaban+Python+Shell+Superset大数据离线数仓解决方案。
项目目标
1 采集和同步架构组件采用: Sqoop+Flume
2数仓架构组件采用:HDFS+SparkSQL/Hive
3 任务调度架构采用:Azkaban+Python/Shell
4 涉及到数仓思想: 分层+建模+维度+粒度+拉链+增量/全量+数据质量等
5 本项目中的BI工具: Superset
项目介绍
准实时数仓是一个集流式数据集成,数据分析、DAU预测和数据应用的数仓型项目。整个项目架构为Nginx+OpenResty+Kafka+Spark+Presto等技术构成。
项目目标
解决事件行为分析。
解决企业留存分析。
解决漏斗分析。
解决DAU预测及数据服务提供。
项目介绍
用户画像是基于数仓之上的项目,主要解决画像标签服务,比如人群圈定服务和相似用户搜索服务等。同时标签的处理使用Word2Vec、TF-IDF、HanLP分词等技术。
项目目标
解决企业人群圈定。
解决相似用户搜索。