Linux搭建Cloudera Manager+CDH6.3.1环境
### 一、大数据环境发展历史 2009年新的Apache Hadoop子项目成立,2011年3月被称为"21世纪的瑞士军刀",12月27日发布1.0.0可用,2013年10月15日发布2.2.0可用,推动大数据技术快速落地企业。 1、安装方式分为原生包(tar包安装),和集群管理工具安装(HDP,CDH,CDP) * 原生包方式 缺点:...
51工具盒子
### 一、大数据环境发展历史 2009年新的Apache Hadoop子项目成立,2011年3月被称为"21世纪的瑞士军刀",12月27日发布1.0.0可用,2013年10月15日发布2.2.0可用,推动大数据技术快速落地企业。 1、安装方式分为原生包(tar包安装),和集群管理工具安装(HDP,CDH,CDP) * 原生包方式 缺点:...
linux命令是对Linux系统进行管理的命令。对于Linux系统来说,无论是中央处理器、内存、磁盘驱动器、键盘、鼠标,还是用户等都是文件,Linux系统管理的命令是它正常运行的核心。 **线上查询及帮助命令(2个)** man:查看命令帮助,命令的词典,更复杂的还有info,但不常用。 help:查看Linux内置命令的帮助,比如cd命令。 **文件和目录...
### 1、Hive入门教程 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。Hive是一个数据仓库基础工具在H...
#### 一、Ambari概述 Ambari跟Hadoop等开源软件一样,也是Apache Software Foundation中的一个项目,并且是顶级项目。Apache Ambari是一个基于Web的支持Apache Hadoop集群的供应、管理和监控的开源工具,Ambari已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Z...
#### 一、ELK简介 ELK是三个开源软件的缩写,分别为:Elasticsearch 、 Logstash以及Kibana , 它们都是开源软件。不过现在还新增了一个Beats,它是一个轻量级的日志收集处理工具(Agent),Beats占用资源少,适合于在各个服务器上搜集日志后传输给Logstash,官方也推荐此工具,目前由于原本的ELK Stack成员中加入了 Beat...
#### 一、Elasticsearch Head简介 Head是Elasticsearch的集群管理工具,可用于数据的查询和浏览、建立索引等功能,运行Elasticsearch head会用到grunt,而grunt需要npm包管理器,所以node.js必须要安装。 Elasticsearch 5.0版本后Elasticesrch head不做为插件放在其plugin...
此脚本是Linux一键部署ShowDoc接口文档自动化脚本,有需要朋友可以参考,脚本内容如下: ### 环境准备: 操作系统:CentOS Linux release 7.8.2003 ### 软件版本: Docker:docker-ce-19.03.12 \[root@localhost \~\]# vim install_showdoc.sh ``` #!/...
此脚本是Linux一键部署Nexus 3私服仓库自动化脚本,有需要朋友可以参考,脚本内容如下: ### 环境准备: 操作系统:CentOS Linux release 7.8.2003 ### 软件版本: Docker:docker-ce-19.03.12 \[root@localhost \~\]# vim install_nexus3.sh ``` #!/b...
#### 一、Flink 简介 Apache Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。Flink设计为在所有常见的集群环境中运行,以内存速度和任何规模执行计算。 1、无界流和有界流 任何类型的数据都是作为事件流产生的。信用卡交易,传感器测量,机器日志或网站或移动应用程序上的用户交互,所有这些数据都作为流生成。 数据可以作为...
#### 一、Hadoop简介 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),其中一个组件是HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-...