标签

Hadoop

Python 2017-11-05

ubuntu安装Hadoop Hive

Hive是基于Hadoop的一个数据仓库工具。Hive可直接用类似SQL的语言描述数据处理逻辑，避免开发人员在开发大数据查询分析处理程序时，编写复杂的基于JAVA的MapReduce程序。换句话说，Hive是将MapReduce抽象为类似SQL语句，在执行SQL语句时，Hive将其转换为MapReduce任务并运行。

很明显Hive需要依赖Hadoop，而且，不同于HBase，Hive必须依赖于HDFS，不能使用本地文件系统；Hive基于Hadoop的分布式存储系统HDFS和HBase以及MapReduce并行计算框架工作。

下载和初始化Hive

下载Hive并解压:

使用如下命令:

wget http://mirror.bit.edu.cn/apache/hive/stable-2/apache-hive-2.1.1-bin.tar.gz
tar xzf apache-hive-2.1.1-bin.tar.gz
sudo cp -r apache-hive-2.1.1-bin /usr/local/hive
sudo chown -R hadoop /usr/local/hive
sudo chmod -R 755 /usr/local/hive

添加环境变量:

export HIVE_HOME=/usr/local/hive
e...

Hadoop Hive 云计算

5232 0

Python 2017-11-04

使用Hadoop的MapReduce和jieba分词统计西游记中的词频

这个功能主要是使用python的jieba分词模块来分词，然后使用mapreduce来统计，其实功能很简单，但是由于刚开始接触使用hadoop，出现了各种问题，这里记录下。
在hadoop执行的mapreduce程序时，使用python非系统模块的话会出现找不到包的错误，网上找到了一种解决方案，使用系统内置的zipimport模块,使用方法：首先将该模块的所有文件复制到当前目录，然后执行:

zip -r jieba.zip jieba
mv jieba.zip jieba.mod

然后代码中就可以这样引入：

import sys

sys.path.append('./')
import zipimport

importer = zipimport.zipimporter('jieba.mod')
jieba = importer.load_module('jieba')
import jieba.analyse

执行的时候又提示错误.在import jieba.analyse时候报错找不到idf.txt这个文件，看了下jieba的源码才发现，在tfidf.py文件如下代码块:

_get_module_path = lambda path: os.path.normpath(os.path.join(os.getcwd(),
                   ...

Hadoop python

10180 0

Python 2017-11-04

使用 Python 编写 Hadoop MapReduce 程序

Hadoop 框架使用 Java 开发的，对 Java 进行了原生的支持，不过对于其它语言也提供了 API 支持，如 Python 、 C++ 、 Perl 、 Ruby 等。这个工具就是 Hadoop Streaming ，顾名思义， Streaming 就是 Pipe 操作，说起 pipe ，大家肯定不陌生。最原生的 Python 支持是需要 Jython 支持的，不过这里有额外的方法来实现，大家如果只是使用的话，不用纠结 Jython 转换的问题。

最容易的 Hadoop 编程模型就是 Mapper 和 Reducer 的编写，这种编程模型大大降低了我们对于并发、同步、容错、一致性的要求，你只要编写好自己的业务逻辑，就可以提交任务。然后喝杯茶，结果就出来了，前提是你的业务逻辑没有错误。

使用 Hadoop Streaming ，能够利用 Pipe 模型，而使用 Python 的巧妙之处在于处理输入输出的数据使用的是 STDIN 和 STDOUT ，然后 Hadoop Streaming 会接管一切，转化成 MapReduce 模型。

我们还是使用 wordcount 例子，具体内容不再详细解释，如果有不理解的可以自行度之。下面我们先看下 mapper 的代码：

#!/usr/bin/env python  

import sys  
#input comes ...

Hadoop python 云计算

5917 0

猿来如此 2017-11-04

在ubuntu上单机配置部署Hadoop

环境

在Ubuntu14.04上安装，在Hadoop 2.8.2版本安装通过。

准备工作

创建用户

终端下输入:

sudo useradd -m hadoop -s /bin/bash

设置密码：

sudo passwd hadoop

增加sudo管理员权限:

sudo adduser hadoop sudo

切换至刚刚创建好的hadoop用户:

sudo su hadoop

更新系统

我们需要更新下系统，这样可以保证安装软件尽量是最新版本的:

sudo apt-get update
sudo apt-get upgrade -y

安装ssh，配置无密码登录

集群、单节点模式都需要用到 SSH 登陆（类似于远程登陆，你可以登录某台 Linux 主机，并且在上面运行命令），Ubuntu 默认已安装了 SSH client，此外还需要安装 SSH server：

sudo apt-get install openssh-server

接下来使用如下命令来生成密钥，然后将密钥加入授权中：

ssh-keygen -t rsa              # 会有提示，都按回车就可以
cat ./id_rsa.pub >> ./authorized_keys

接下来使用ssh localhost命令，应该会无需密码直接登录成功。

安装Java环境

sudo...

Hadoop 云计算

5036 0

猿来如此 2017-11-04

hadoop学习笔记

首先先介绍下Hadoop，来自维基百科：

Apache Hadoop是一款支持数据密集型分布式应用程序并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。Hadoop是根据谷歌公司发表的MapReduce和Google文件系统的论文自行实现而成。所有的Hadoop模块都有一个基本假设，即硬件故障是常见情况，应该由框架自动处理。 Hadoop框架透明地为应用提供可靠性和数据移动。它实现了名为MapReduce的编程范式：应用程序被分区成许多小部分，而每个部分都能在集群中的任意节点上运行或重新运行。此外，Hadoop还提供了分布式文件系统，用以存储所有计算节点的数据，这为整个集群带来了非常高的带宽。MapReduce和分布式文件系统的设计，使得整个框架能够自动处理节点故障。它使应用程序与成千上万的独立计算的电脑和PB级的数据。现在普遍认为整个Apache Hadoop“平台”包括Hadoop内核、MapReduce、Hadoop分布式文件系统（HDFS）以及一些相关项目，有Apache Hive和Apache HBase等等。

Hadoop框架中最核心的设计就是：MapReduce和HDFS。MapReduce的思想是由Google的一篇论文所提及而被广为流传的，简单的一句话解释MapReduce就是“任务的分解与结果的汇总...

Hadoop 云计算

4189 0

Hadoop

使用python连接hive

ubuntu安装Hadoop Hive

ubuntu安装Hadoop Hive

下载和初始化Hive

下载Hive并解压:

添加环境变量:

使用Hadoop的MapReduce和jieba分词统计西游记中的词频

使用 Python 编写 Hadoop MapReduce 程序

在ubuntu上单机配置部署Hadoop

环境

准备工作

创建用户

更新系统

安装ssh，配置无密码登录

安装Java环境

hadoop学习笔记