大数据具体是学习什么内容呢？主要框架是什么

如题所述

第1个回答 2020-05-20

首先，学习大数据是需要有java，python和R语言的基础。
1) Java学习到什么样的程度才可以学习大数据呢?
java需要学会javaSE即可。javaweb，javaee对于大数据用不到。学会了javase就可以看懂hadoop框架。
2) python是最容易学习的，难易程度：python java Scala 。
python不是比java更直观好理解么，因为会了Python 还是要学习java的，你学会了java，再来学习python会很简单的，一周的时间就可以学会python。
3) R语言也可以学习，但是不推荐，因为java用的人最多，大数据的第一个框架Hadoop，底层全是Java写的。就算学会了R还是看不懂hadoop。
java在大数据中的作用是构成大数据的语言，大数据的第一个框架Hadoop以及其他大数据技术框架，底层语言全是Java写的，所以推荐首选学习java
大数据开发学习路线：
第一阶段：Hadoop生态架构技术
1、语言基础
Java：多理解和实践在Java虚拟机的内存管理、以及多线程、线程池、设计模式、并行化就可以，不需要深入掌握。
Linux：系统安装、基本命令、网络配置、Vim编辑器、进程管理、Shell脚本、虚拟机的菜单熟悉等等。
Python：基础语法，数据结构，函数，条件判断，循环等基础知识。
2、环境准备
这里介绍在windows电脑搭建完全分布式，1主2从。
VMware虚拟机、Linux系统（Centos6.5）、Hadoop安装包，这里准备好Hadoop完全分布式集群环境。
3、MapReduce
MapReduce分布式离线计算框架，是Hadoop核心编程模型。
4、HDFS1.0/2.0
HDFS能提供高吞吐量的数据访问，适合大规模数据集上的应用。
5、Yarn（Hadoop2.0）
Yarn是一个资源调度平台，主要负责给任务分配资源。
6、Hive
Hive是一个数据仓库，所有的数据都是存储在HDFS上的。使用Hive主要是写Hql。
7、Spark
Spark 是专为大规模数据处理而设计的快速通用的计算引擎。
8、SparkStreaming
Spark Streaming是实时处理框架，数据是一批一批的处理。
9、SparkHive
Spark作为Hive的计算引擎，将Hive的查询作为Spark的任务提交到Spark集群上进行计算，可以提高Hive查询的性能。
10、Storm
Storm是一个实时计算框架，Storm是对实时新增的每一条数据进行处理，是一条一条的处理，可以保证数据处理的时效性。
11、Zookeeper
Zookeeper是很多大数据框架的基础，是集群的管理者。
12、Hbase
Hbase是一个Nosql数据库，是高可靠、面向列的、可伸缩的、分布式的数据库。
13、Kafka
kafka是一个消息中间件，作为一个中间缓冲层。
14、Flume
Flume常见的就是采集应用产生的日志文件中的数据，一般有两个流程。
一个是Flume采集数据存储到Kafka中，方便Storm或者SparkStreaming进行实时处理。
另一个流程是Flume采集的数据存储到HDFS上，为了后期使用hadoop或者spark进行离线处理。
第二阶段：数据挖掘算法
1、中文分词
开源分词库的离线和在线应用
2、自然语言处理
文本相关性算法
3、推荐算法
基于CB、CF，归一法，Mahout应用。
4、分类算法
NB、SVM
5、回归算法
LR、DecisionTree
6、聚类算法
层次聚类、Kmeans
7、神经网络与深度学习
NN、Tensorflow
以上就是学习Hadoop开发的一个详细路线，如果需要了解具体框架的开发技术，可咨询加米谷大数据老师，详细了解。
学习大数据开发需要掌握哪些技术呢？
（1）Java语言基础
Java开发介绍、熟悉Eclipse开发工具、Java语言基础、Java流程控制、Java字符串、Java数组与类和对象、数字处理类与核心技术、I/O与反射、多线程、Swing程序与集合类
（2）HTML、CSS与Java
PC端网站布局、HTML5+CSS3基础、WebApp页面布局、原生Java交互功能开发、Ajax异步交互、jQuery应用
（3）JavaWeb和数据库
数据库、JavaWeb开发核心、JavaWeb开发内幕
Linux&Hadoop生态体系
Linux体系、Hadoop离线计算大纲、分布式数据库Hbase、数据仓库Hive、数据迁移工具Sqoop、Flume分布式日志框架
分布式计算框架和Spark&Strom生态体系
（1）分布式计算框架
Python编程语言、Scala编程语言、Spark大数据处理、Spark—Streaming大数据处理、Spark—Mlib机器学习、Spark—GraphX 图计算、实战一：基于Spark的推荐系统（某一线公司真实项目）、实战二：新浪网（www.sina.com.cn）
（2）storm技术架构体系
Storm原理与基础、消息队列kafka、Redis工具、zookeeper详解、大数据项目实战数据获取、数据处理、数据分析、数据展现、数据应用
大数据分析—AI（人工智能）Data
Analyze工作环境准备&数据分析基础、数据可视化、Python机器学习
以上的回答希望对你有所帮助

相似回答

大数据专业学什么?答：大数据，指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。这里介绍一下大数据要学习和掌握的知识与技能：①java：一门面向对象的计算机编程语言，具有功能强大和简单易用两个特征。...

大数据学习路线及专业课程学习的主要内容是什么?答：3、HadoopHadoop是大数据开发的重要框架，其核心是HDFS和MapReduce。HDFS为海量数据提供存储，MapReduce为海量数据提供计算。所以需要掌握Hadoop集群、Hadoop集群管理、YARN和Hadoop高级管理等相关技术和操作！4、蜂巢Hive是基于Hadoop的数据仓库工具，可以将结构化的数据文件映射到一个数据库表中，提供简单的sql查...

大数据需要学习哪些内容?答：您好，大数据学习内容包括6个阶段：第一阶段 JavaSE基础核心第二阶段数据库关键技术第三阶段大数据基础核心第四阶段 Spark生态体系框架&大数据高薪精选项目 第五阶段 Spark生态体系框架&企业无缝对接项目第六阶段 Flink流式数据处理框架您可以按照顺序学习，希望您早日学有所成。

大数据技术是学什么内容的?答：大数据技术主要包括以下几个方面的学习内容：1、数据管理和存储：了解各种数据存储技术，如关系型数据库(如MySQL、Oracle)、NoSQL数据库(如MongoDB、Redis)以及分布式文件系统(如Hadoop HDFS)。学习如何设计和管理庞大的数据集，包括数据采集、存储、索引、备份和恢复等。2、数据处理和分析：熟悉数据处理和...

大数据是学什么的,工作干什么答：1、Hadoop开发工程师 Hadoop是一个分布式文件系统(Hadoop Distributed File System)，简称HDFS。Hadoop是一个能够对大量数据进行分布式处理的软件框架，以一种可靠、高效、可伸缩的方式进行数据处理。所以说Hadoop解决了大数据如何存储的问题，因而在大数据培训机构中是必须学习的课程。2、数据分析师数据分析师...

大家正在搜