要想了解Cloudera,最快的方式是从官方网站上下载【QuickStart VM】

官方的下载页如下:
https://www.cloudera.com/downloads/quickstart_vms/5-12.html

目前,QuickStart VM,支持的版本是:QuickStarts for CDH 5.12

下载完成后,用VMware打开运行就可以用了。

在我的环境中,具体如下:

下载,并解压后的文件:

虚拟机运行起来后:

为了方便使用,我还做了如下的配置:

1. 修改root口令:
开机后,默认的登录用户为【cloudera】。
不过该用户拥有【sudo】的权限。

2. 配置远程拉取徒刑窗口的工具
因为我的电脑的分辨率太高,所以,在使用VMware的时候,通过控制台操纵虚拟机不是太方便。
于是我安装了一个远程控制的工具【Nomachine】

然后就可以通过MS Windows的Nomachine方便的访问了:

——————
其实在虚拟机中看到的那个Firefox打开的网页,在虚拟机启动后,在外面的电脑里面也是可以访问到的:
http://192.168.59.129/#/

接下来,就可以跟着【Cloudera Live】一步步的去熟悉环境了。
——————————————

一、Get Started

内容:

可以看到,如果你要开始接下来的指导,你有两个选择,这两个选择对于机器的性能的要求是不一样的:
1. Cloudera Express:
最少:
内存:8G
CPU:2C

2. Cloudera Enterprise:
最少:
内存:10G
CPU:2C

看看当前的配置情况:

当前的服务器的配置是:
CPU:4C
内存:8G

略有不足。
关闭虚拟机,把内存配置调上去。
然后,再回来。

现在,再看看虚拟机的配置:

回到上面的网页,… 可以从说明中看到:
1. 如果你是Cloudera Express,你可以通过桌面上的【Launch Cloudera Express】去执行实验环境的初始化
2. 如果你是Cloudera Enterprise,你可以通过桌面上的【Launch Cloudera Enterprise】去执行实验环境的初始化

这里,我选择【Cloudera Enterprise】

然后,脚本就开始运行了:

等待脚本执行完成。
2017年10月24日22:49:10

最后,执行完成:

执行上面这个过程的详细输出:

访问:
http://192.168.59.129:7180

可以看到,Cloudera Manager(CM)已经安装好啦。

启动Cloudera Manager:

——————————
这样之后,… 就可以继续跟着【Cloudera Live】的指导走下去了。

二、Getting Started(Continue)

内容:

这里,介绍了这个指导手册中,假想的一个组织【DataCo】。

三、Tutorial Exercise 1
第一阶段的实验所涉及的表结构的图:
MySQL中,retail_db的表结构的关系图。

内容:

当然了,真正的实验的场景描述远远比上面摘录的长得多。

大概说的意思是:
老板们想要知道【客户最喜欢买什么产品】
而业务系统使用的却是关系型数据库。

传统的关系型数据库的数据分析方法当然也可以得到老板们要的答案,但是在大数据的场景中,我们需要先把关系型的数据库中的数据,导入到HDFS中,以便进行下一步的更多样的、更灵活的分析。

这里,其实主要引出了CDH的一个组件:Sqoop。
该工具可以将类似MySQL、Oracle的关系型数据库中的数据导入到Hadoop的分布式文件系统(HDFS)中。

先看看环境:

MySQL数据库的状态:

这些就是本次场景中所涉及到的数据了。

用Sqoop导入HDFS:

然后,再看看HDFS的状态:

在上面的步骤完成后,我们的MysQL的数据就被加载到了HDFS中。
在上面的的查询中,已经可以看到了。

接下来,指导手册引出了Hadoop生态的另两个组件:HIVE和Impala。
这两个组件可以让你以类似关系型数据库的语法去通过定义SCHEMA来创建表。

在我们的这个实验场景中,表其实都已经由SQOOP创建好了,所以,我们只需要查询它们就好。

这里,我们使用【HUE】去做查询:
Hue URL:
http://192.168.59.129:8888/

执行:

结果:

可以看到,现在CDH中,你的交易数据已经可以做结构化查询了。
现在可以回到场景问题中:【DataCo】希望知道什么产品卖得最好。

找出销量前十的分类:
Code:

效果:

销量前十的产品:
Code:

效果:

至此,场景一的练习开始时候的问题就已经得到解答了。

————————————
To Be Continue。

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.

隐藏
变装