MapReduce例程

Stella981
• 阅读 309

TemperatureMR.java

package cn.kissoft.hadoop.week05;

import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class TemperatureMR {

    public static void main(String[] args) throws Exception {
        if (args.length != 2) {
            System.err.println("Usage: Temperature <input path> <output path>");
            System.exit(-1);
        }
        Job job = new Job();
        job.setJarByClass(TemperatureMR.class);
        job.setJobName("Max and min temperature");
        FileInputFormat.addInputPath(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));
        job.setMapperClass(TemperatureMapper.class);
        job.setReducerClass(TemperatureReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

TemperatureMapper.java

package cn.kissoft.hadoop.week05;

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class TemperatureMapper extends Mapper<LongWritable, Text, Text, IntWritable> {
    private static final int MISSING = 9999;

    @Override
    public void map(LongWritable key, Text value, Context context)
            throws IOException, InterruptedException {
        String line = value.toString();
        String year = line.substring(0, 4);
        int airTemperature = Integer.parseInt(line.substring(13, 19).trim());
        if (Math.abs(airTemperature) != MISSING) {
            context.write(new Text(year), new IntWritable(airTemperature));
        }
    }
}

MaxTemperatureReducer.java

package cn.kissoft.hadoop.week05;

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class TemperatureReducer extends Reducer<Text, IntWritable, Text, IntWritable> {

    @Override
    public void reduce(Text key, Iterable<IntWritable> values, Context context)
            throws IOException, InterruptedException {

        int maxValue = Integer.MIN_VALUE;
        int minValue = Integer.MAX_VALUE;
        for (IntWritable value : values) {
            maxValue = Math.max(maxValue, value.get());
            minValue = Math.min(minValue, value.get());
        }
        context.write(key, new IntWritable(maxValue));
        context.write(key, new IntWritable(minValue));
    }
}

运行过程

[wukong@bd11 guide]$ hadoop jar pc.jar cn.kissoft.hadoop.week05.TemperatureMR ./ch02/1959.txt ./ch02/out/
Warning: $HADOOP_HOME is deprecated.


14/08/15 16:29:32 WARN mapred.JobClient: Use GenericOptionsParser for parsing the arguments. Applications should implement Tool for the same.
14/08/15 16:29:32 INFO input.FileInputFormat: Total input paths to process : 1
14/08/15 16:29:32 INFO util.NativeCodeLoader: Loaded the native-hadoop library
14/08/15 16:29:32 WARN snappy.LoadSnappy: Snappy native library not loaded
14/08/15 16:29:34 INFO mapred.JobClient: Running job: job_201408151617_0003
14/08/15 16:29:35 INFO mapred.JobClient:  map 0% reduce 0%
14/08/15 16:29:47 INFO mapred.JobClient:  map 100% reduce 0%
14/08/15 16:30:00 INFO mapred.JobClient:  map 100% reduce 100%
14/08/15 16:30:04 INFO mapred.JobClient: Job complete: job_201408151617_0003
14/08/15 16:30:04 INFO mapred.JobClient: Counters: 29
14/08/15 16:30:04 INFO mapred.JobClient:   Job Counters 
14/08/15 16:30:04 INFO mapred.JobClient:     Launched reduce tasks=1
14/08/15 16:30:04 INFO mapred.JobClient:     SLOTS_MILLIS_MAPS=14989
14/08/15 16:30:04 INFO mapred.JobClient:     Total time spent by all reduces waiting after reserving slots (ms)=0
14/08/15 16:30:04 INFO mapred.JobClient:     Total time spent by all maps waiting after reserving slots (ms)=0
14/08/15 16:30:04 INFO mapred.JobClient:     Launched map tasks=1
14/08/15 16:30:04 INFO mapred.JobClient:     Data-local map tasks=1
14/08/15 16:30:04 INFO mapred.JobClient:     SLOTS_MILLIS_REDUCES=12825
14/08/15 16:30:04 INFO mapred.JobClient:   File Output Format Counters 
14/08/15 16:30:04 INFO mapred.JobClient:     Bytes Written=19
14/08/15 16:30:04 INFO mapred.JobClient:   FileSystemCounters
14/08/15 16:30:04 INFO mapred.JobClient:     FILE_BYTES_READ=9180486
14/08/15 16:30:04 INFO mapred.JobClient:     HDFS_BYTES_READ=27544475
14/08/15 16:30:04 INFO mapred.JobClient:     FILE_BYTES_WRITTEN=13886908
14/08/15 16:30:04 INFO mapred.JobClient:     HDFS_BYTES_WRITTEN=19
14/08/15 16:30:04 INFO mapred.JobClient:   File Input Format Counters 
14/08/15 16:30:04 INFO mapred.JobClient:     Bytes Read=27544368
14/08/15 16:30:04 INFO mapred.JobClient:   Map-Reduce Framework
14/08/15 16:30:04 INFO mapred.JobClient:     Map output materialized bytes=4590240
14/08/15 16:30:04 INFO mapred.JobClient:     Map input records=444264
14/08/15 16:30:04 INFO mapred.JobClient:     Reduce shuffle bytes=4590240
14/08/15 16:30:04 INFO mapred.JobClient:     Spilled Records=1251882
14/08/15 16:30:04 INFO mapred.JobClient:     Map output bytes=3755646
14/08/15 16:30:04 INFO mapred.JobClient:     Total committed heap usage (bytes)=218865664
14/08/15 16:30:04 INFO mapred.JobClient:     CPU time spent (ms)=6280
14/08/15 16:30:04 INFO mapred.JobClient:     Combine input records=0
14/08/15 16:30:04 INFO mapred.JobClient:     SPLIT_RAW_BYTES=107
14/08/15 16:30:04 INFO mapred.JobClient:     Reduce input records=417294
14/08/15 16:30:04 INFO mapred.JobClient:     Reduce input groups=1
14/08/15 16:30:04 INFO mapred.JobClient:     Combine output records=0
14/08/15 16:30:04 INFO mapred.JobClient:     Physical memory (bytes) snapshot=322985984
14/08/15 16:30:04 INFO mapred.JobClient:     Reduce output records=2
14/08/15 16:30:04 INFO mapred.JobClient:     Virtual memory (bytes) snapshot=1455579136
14/08/15 16:30:04 INFO mapred.JobClient:     Map output records=417294

运行结果

[wukong@bd11 guide]$ hadoop fs -cat ./ch02/out/part-r-00000

Warning: $HADOOP_HOME is deprecated.

1959    418
1959    -400

截图

**MapReduce例程
**

MapReduce例程

点赞
收藏
评论区
推荐文章
blmius blmius
2年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
Jacquelyn38 Jacquelyn38
2年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
Stella981 Stella981
2年前
List的Select 和Select().tolist()
List<PersondelpnewList<Person{newPerson{Id1,Name"小明1",Age11,Sign0},newPerson{Id2,Name"小明2",Age12,
Wesley13 Wesley13
2年前
Java获得今日零时零分零秒的时间(Date型)
publicDatezeroTime()throwsParseException{    DatetimenewDate();    SimpleDateFormatsimpnewSimpleDateFormat("yyyyMMdd00:00:00");    SimpleDateFormatsimp2newS
Wesley13 Wesley13
2年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Wesley13 Wesley13
2年前
00:Java简单了解
浅谈Java之概述Java是SUN(StanfordUniversityNetwork),斯坦福大学网络公司)1995年推出的一门高级编程语言。Java是一种面向Internet的编程语言。随着Java技术在web方面的不断成熟,已经成为Web应用程序的首选开发语言。Java是简单易学,完全面向对象,安全可靠,与平台无关的编程语言。
Stella981 Stella981
2年前
Django中Admin中的一些参数配置
设置在列表中显示的字段,id为django模型默认的主键list_display('id','name','sex','profession','email','qq','phone','status','create_time')设置在列表可编辑字段list_editable
Wesley13 Wesley13
2年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
3个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这