您可以使用日志处理来提取各种信息。其中最常用的一种用法是提取错误，或是对某个系统中的一些事件（比如登录失败）的发生次数进行计数。您还可以提取某些类型的性能数据，比如每秒连接数或每秒处理的事务数。其他有用的信息包括 Web 日志中的站点访问量（减少）的提取（映射）和构造。这一分析除了支持检测文件访问统计之外，还支持对惟一用户访问的检测。

概述

关于本文通过练习开始工作之前，您可能想阅读以下文章：

使用 Linux 和 Hadoop 进行分布式计算 http://www.linuxidc.com/Linux/2008-12/17798.htm
用 Hadoop 进行分布式数据处理，第 1 部分：入门 http://www.linuxidc.com/Linux/2012-08/68177.htm
用 Hadoop 进行分布式数据处理，第 2 部分：进阶 http://www.linuxidc.com/Linux/2012-08/68178.htm
用 Hadoop 进行分布式数据处理，第 3 部分：应用程序开发 http://www.linuxidc.com/Linux/2012-08/68179.htm
使用 Apache Pig 处理数据 http://www.linuxidc.com/Linux/2012-08/68180.htm

这些练习将为您提供以下几方面的实践：

建立一个简单的 Hadoop 环境并运行它
与 Hadoop 文件系统 (HDFS) 进行交互
编写一个简单的 MapReduce 应用程序
编写一个过滤的 Apache Pig 查询
编写一个累计的 Pig 查询
先决条件

要从这些练习中获得最大的益处，您应当掌握 Linux® 的基本应用知识。对虚拟设备有一些了解也有助于建立一个简单的环境。

练习 1. 建立一个简单的 Hadoop 环境并运行它

要建立 Hadoop 环境并运行它，有两种方法。第一种是安装 Hadoop 软件，然后针对您的环境（最简单的情况是一个单节点实例，其中所有的守护程序都在单个节点上运行）对其进行配置。参见用 Hadoop 进行分布式数据处理，第 1 部分：入门 http://www.linuxidc.com/Linux/2012-08/68177.htm
以了解有关的详细信息。

第二种（也是较为简单的一种）方法是通过使用 Cloudera 的 Hadoop Demo VM（包含一个 Linux 映像和一个预配置的 Hadoop 实例）。Cloudera 虚拟机 (VM) 运行于 VMware、基于 Kernel 的虚拟机或 Virtualbox 之上。

选择一种方法，并完成安装。然后，完成以下任务：

通过发出一个 HDFS ls 命令来验证 Hadoop 是否正在运行。

练习 2. 与 HDFS 进行交互

HDFS 是一种专用的文件系统，用来管理一个 Hadoop 集群内的数据和副本，并将它们分配给各个计算节点，以便高效处理它们。尽管 HDFS 是一种专用的文件系统，但它仍然可以实现许多典型的文件系统命令。要检索 Hadoop 的帮助信息，可发出 hadoop dfs 命令。请执行以下任务：

在 HDFS 内创建一个测试子目录。
使用 copyFromLocal 将一个文件从本地文件系统移动到 HDFS 子目录中。
对于额外的练习，请使用 hadoop dfs 命令查看 HDFS 内的文件。

知识点

相关文章

最近更新

实践：使用 Apache Hadoop 处理日志

相关问答

Hadoop 报错: org.apache.hadoop.mapreduce.lib.input.FileSplit cannot be cast to org.apache[2022-10-25]

HTrace在Hadoop 2.7.3中(HTrace in Hadoop 2.7.3)[2022-03-02]

将日志发送到远程hadoop的问题(issue on sending log to remote hadoop)[2023-11-04]

使用Apache Hadoop中安装的apache sqoop和Cloudera Hadoop有什么区别？(What is the difference between using apache sqoop installed in Apache Hadoop and Cloudera Hadoop?)[2022-09-28]

hadoop上的FileNotFoundException(FileNotFoundException on hadoop)[2022-04-04]

hadoop Datanode关闭(hadoop Datanode shutting down)[2022-12-17]

使用Oozie for Hadoop的最佳实践(Best practices for using Oozie for Hadoop)[2023-02-04]

如何更改Hadoop 2中的用户日志的日志级别？(How to change log level of userlogs in Hadoop 2?)[2022-02-13]

在NFS上安装Hadoop(Installing Hadoop on NFS)[2023-09-01]

没有检测到hadoop namenode(hadoop namenode not getting detected)[2023-07-21]