hadoop

Centos上安装Hadoop

Hadoop

hadoop 是使用 java 实现的分布式系统,hadoop core 包括 MapReduce 和 HDFS 两个主要的部分,前者提供了一个编程模型,后者提供了一个存储模型。想起多年前(应该是半年前)腾讯实习生招聘的一个题目,如何统计每天 qq 登陆用户数。那个时候 me 们的思路还停留在比较简单的阶段 : 首先将所有的数据读入内存,然后根据位数或是其他方式分割数据,其次排序过滤掉重复用户,最后计数求和。如果是现在的话,me 应该会说,将数据存到 HDFS 中,写个 MapReduce Job 去做,me 已经不会期望三五秒钟就能看到结果了,O__O"… 或是使用 Hive 存储数据,然后写一个简单的 HiveQL 语句:select count(distinct userid) from user_login_log where dt = $YESTERDAY 。 很多复杂的问题,怎么部署 JOB、分割数据、组合数据等等乱七八糟的,me 都不去管了,O__O"…

Tags: 

hadoop的统计单词程序WordCount

hadoop 是用 java 的实现的一个分布式系统框架,最主要的两个部分可能就是 MapReduce 和 HDFS 了,前者是个编程模型,后者是存储模型。算了,不多说了,拣重点。WordCount 是 MapReduce 的经典程序, Hadoop 官网有这个程序,现在 me 们就是要跑通这个程序。当然首先的第一步就是安装 Hadoop,这一点,本篇不多做介绍。其次,就是按照指定的步骤去执行就好,不过中途会出一些问题,这是本篇要介绍的重点。

假定 hadoop 已经安装了,of course JAVA 也安装了,然后按照下面的执行,应该就可以跑通程序了。

Tags: