作者文章归档：admin

使用Hadoop的MapReduce和jieba分词统计西游记中的词频

9442 views

这个功能主要是使用python的jieba分词模块来分词，然后使用mapreduce来统计，其实功能很简单，但是由于刚开始接触使用hadoop，出现了各种问题，这里记录下。
在hadoop执行的mapreduce程序时，使用python非系统模块的话会出现找不到包的错误，网上找到了一种解决方案，使用系统内置的zipimport模块,使用方法：首先将该模块的所有文件复制到当前目录，然后执行:

zip -r jieba.zip jieba
mv jieba.zip jieba.mod

然后代码中就可以这样引入：

import sys

sys.path.append('./')
imp...

使用 Python 编写 Hadoop MapReduce 程序

5173 views

Hadoop 框架使用 Java 开发的，对 Java 进行了原生的支持，不过对于其它语言也提供了 API 支持，如 Python 、 C++ 、 Perl 、 Ruby 等。这个工具就是 Hadoop Streaming ，顾名思义， Streaming 就是 Pipe 操作，说起 pipe ，大家肯定不陌生。最原生的 Python 支持是需要 Jython 支持的，不过这里有额外的方法来实现，大家如果只是使用的话，不用纠结 Jython 转换的问题。

最容易的 Hadoop 编程模型就是 Mapper 和 Reducer 的编写，这种编程模型大大降低了我们对于并发、同步、容错、一...

在ubuntu上单机配置部署Hadoop

4426 views

环境

在Ubuntu14.04上安装，在Hadoop 2.8.2版本安装通过。

准备工作

创建用户

终端下输入:

sudo useradd -m hadoop -s /bin/bash

设置密码：

sudo passwd hadoop

增加sudo管理员权限:

sudo adduser hadoop sudo

切换至刚刚创建好的hadoop用户:

sudo su hadoop

更新系统

我们需要更新下系统，这样可以保证安装软件尽量是最新版本的:

sudo apt-get update
sudo apt-get upgrade -y

安装ssh，配置无密码登录

集群、单...

hadoop学习笔记

3588 views

首先先介绍下Hadoop，来自维基百科：

Apache Hadoop是一款支持数据密集型分布式应用程序并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。Hadoop是根据谷歌公司发表的MapReduce和Google文件系统的论文自行实现而成。所有的Hadoop模块都有一个基本假设，即硬件故障是常见情况，应该由框架自动处理。 Hadoop框架透明地为应用提供可靠性和数据移动。它实现了名为MapReduce的编程范式：应用程序被分区成许多小部分，而每个部分都能在集群中的任意节点上运行或重新运行。此外，Hadoop还提供了分布式文件系统，用...

Linode开启Google BBR

3 评论

13078 views

熟悉科学上网的同学可能会知道，由于境内外网络环境复杂，延迟高、丢包率高，许多基于TCP协议的翻墙工具会存在传输速度低且不稳定的问题。这在很大程度上是因为，TCP协议可以使用多种拥塞控制算法，而最常用的CUBIC算法存在着无法全速发送数据、易被丢包干扰、容易产生锯齿状波动等问题。因此，各种TCP单边加速工具层出不穷，如锐速（Appex）、ZetaTCP。但这些工具需要较高的运行权限且大部分是收费使用并不开源，因此从安全、成本和可靠性的角度会让使用者有更多顾虑。
好在，2016年09月，Google向Linux Kernel提交了Google BBR的Pull Request。Google ...

关于SqlServer中的NOLOCK

5 评论

3778 views

在我们系统的sql查询代码中，经常可以看到select之后会加一个NOLOCK的关键字，但是至于这个关键字是什么意思，问了下大家一般也就是说“禁用读写锁，可以提升查询性能”，但是真正深层次的原因却不清楚，查询了下相关资料然后整理了下分享给大家。

nolock是什么

nolock是 SQL Server 的一个关键字，这类关键字官方将其称之为 Hints。 Hints 的设计目的是为了能够让 SQL 语句在运行时，动态修改查询优化器的行为。在语法上，Hints 以WITH开头。除了WITH(nolock)，还有TABLOCK/INDEX/ROWLOCK等常见的 Hints。 MSDN文...

且听风吟

重剑无锋，大巧不工。