数据仓库是一个面向主题的、集成的、随时间变化的,但信息本身相对稳定的数据集合,它用于支持企业或组织的决策分析处理,基于数据仓库的定义,数据仓库此处有四个特点: 查看全文>>
大数据技术文章2020-12-02 |传智教育 |数据仓库特点,数据仓库
Hadoop是由Java语言开发的,Hadoop集群的使用依赖于Java环境,因此在安装Hadoop集群前,需要先安装并配置好JDK。接下来,就在前面规划的Hadoop集群主节点hadoop01机器上分步骤演示,如何安装和配置JDK,具体如下。 查看全文>>
大数据技术文章2020-12-02 |传智播客 |JDK的安装和配置
虚拟机在安装和克隆之后,虽然能够直接使用,但是此时虚拟机的IP是动态生成的,在不断的开停过程中很容易改变,非常不利于实际开发;通过Hadoop01克隆的虚拟机(假设克隆了2个虚拟机Hadoop02和Hadoop03)则完全无法动态分配到IP,直接无法使用。因此,虚拟机在安装和克隆之后还需要对虚拟机的网络都分别进行配置。 查看全文>>
大数据技术文章2020-12-02 |传智教育 |虚拟机网络配置,Linux系统网络
Client(客户端)对HDFS中的数据进行读写操作,分别是Client从HDFS中查找数据,即为Read(读)数据;Client从HDFS中存储数据,即为Write(写)数据。假设有一个文件1.txt文件,大小为300M,这样就划分出3个数据块,我们根据这三个模块分别讲解HDFS文件读数据和写数据的原理。 查看全文>>
大数据技术文章2020-12-01 |传智教育 |HDFS读写流程,HDFS读写数据的原理
MapReduce程序运行模式有本地运行模式和集群运行模式,集群运行模式只需要将MapReduce程序打成Jar包上传至集群即可,下面我们以词频统计为例,讲解如何将MapReduce程序设置为在本地运行模式。 查看全文>>
大数据技术文章2020-12-01 |传智教育 |MapReduce两种运行模式
Scala算术和操Scala中算术操作符(+、-、*、/、%)的作用和Java是一样的,位操作符(&、|、>>、<<)也是一样的。特别强调的是,Scala的这些操作符其实是方法。例如,a+b其实是a.+(b)的简写,接下来,我们通过Scala交互式Shell编程讲解操作符的使用,具体示例代码如下。 查看全文>>
大数据技术文章2020-11-18 |传智播客 |Scala算术和操符
Hadoop与Spark两者都是大数据计算框架,但是两者各自都有自己的优势,到底哪个更适合开发使用,下面对两者做一个简单对比: 查看全文>>
大数据技术文章2020-11-18 |传智播客 |Spark与Hadoop对比
使用Hadoop进行大数据运算,当数据量极其大时,那么对MapReduce性能的调优重要性不言而喻,尤其是Shuffle过程中的参数配置对作业的总执行时间影响特别大。下面总结一些和MapReduce相关的性能调优方法,主要从五个方面考虑:数据输入、Map阶段、Reduce阶段、Shuffle阶段和其他调优属性。 查看全文>>
大数据技术文章2020-11-18 |传智播客 |MapReduce的性能调优方法