说明:本文为跟着【Cloudera Live】的练习记录。

——————————————
场景【2】:Showing Big Data Value

在场景二中,构建的对话里面,你的老板开始质疑你在场景一中的结果了:

Scenario:

Your Management: is indifferent, you produced what you always produce – a report on structured data, but you really didn’t prove any additional value.

You: are either also indifferent and just go back to what you have always done… or you have an ace up your sleeve…

下面,开始该场景。

——————————————————————————
首先,在Cloudera Manager的主页上确认以下服务的状态是运行的,并且是正常的:
1. HDFS
2. Hive
3. Hue
4. Impala

如图:

接下来,场景中提出了一个问题:【所有被浏览最多的产品,是卖得最好的吗?】

在场景二中,引出了Hadoop的组件:Flume。

——————————
首先,讲本地的数据上传到HDFS:
Let’s move this data from the local filesystem, into HDFS.

现在,你就可以在Hive中创建表,并且通过Impala和Hue去查询上面上传的数据了。

执行语句:

执行:

注意,上面是在Hue的Hive中执行的。

然后,需要告诉Impala,有一些表已经通过其他的工具【Hive】创建成功了。
代码:

执行:

查询:

或者:

效果:

比较上面的结果和场景【1】中查询到的前十位的分类结果集:

可以看到,有的产品被查看了很多次,但是却没有卖出去。

至此,已经回答了场景【2】开始的时候的问题。

————————————————————————
Done。

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.

隐藏
变装