不想CRUD干到老,就来看看这篇OOM排查的实战案例!

ByteCodeTrail
• 阅读 203

一、经历概要

程序里有个跑数据的job,这个job的主要功能是往数据库写假数据。

既需要跑历史数据(传给job的日期是过去的时间),也需要能够上线后,实时跑(十秒钟触发一次,传入触发时的当前时间)。

其中一个job比较奇葩点,要写入的数据比较难以随机生成,是产品的同事从互联网上找的数据,比如当前网络上的热门话题,然后导入到数据库中。所以,

我这边随机的时候,不能乱造。因此我的策略是,从数据库将已经存在的那几条真实数据查询出来,然后job中根据随机数,选择其中一条来仿造一条新的,

随机生成新记录的其他字段,再写入数据库中。

我单元测试一直这么跑的,没有任何问题,直到,将定时触发器打开,然后上线运行。。。悲剧来了。

二、程序大体逻辑

1、job接口定义:

/**
 * desc:
 * 造数据的job,可按表来划分。一个表一个job
 * @author : 
 * creat_date: 2018/6/11 0011
 * creat_time: 14:46
 **/
public interface DataProduceJob {
    /**
     * job的初始化
     * @param date
     */
    void jobInit(Date date);

    /**
     * 具体的job运行细节
     */
    void jobDetail(Integer recordNum);
}

job之所以分了上面两个接口,只是因为设计失误,完全可以融合为一个方法。jobInit的内容,后来我改写到job的afterPropertiesSet中了。

(job实现了org.springframework.beans.factory.InitializingBean接口,保证初始化数据只被调用一次,所谓的初始化数据是指:

读文件,读数据库之类的准备工作,后续的假数据都从这里面取)

这边是出问题的job的源码:

package com.ceiec.datavisual.quartz.job;

import com.ceiec.common.utils.FileUtils;
import com.ceiec.common.utils.MathUtils;
import com.ceiec.datavisual.dao.GpsLocationSampleMapper;
import com.ceiec.datavisual.dao.TopicAccountMapper;
import com.ceiec.datavisual.dao.TopicMapper;
import com.ceiec.datavisual.dao.TopicWebsiteMapper;
import com.ceiec.datavisual.model.GpsLocationSample;
import com.ceiec.datavisual.model.Topic;
import com.ceiec.datavisual.model.TopicAccount;
import com.ceiec.datavisual.model.TopicWebsite;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.core.io.ClassPathResource;
import org.springframework.stereotype.Component;

import java.math.BigDecimal;
import java.util.Date;
import java.util.List;
import java.util.Random;

@Component
public class TopicWebsiteJob extends BaseJob implements DataProduceJob {
    @Autowired
    private TopicWebsiteMapper topicWebsiteMapper;

    private Date date;

    Random random = new Random();

    private List<TopicWebsite> topicWebsites;

    /**
     * 当前job执行时的时间,会作为创建时间写入数据库表
     *
     * @param date
     */
    @Override
    public void jobInit(Date date) {
        this.date = date;
        topicWebsites = topicWebsiteMapper.selectAll();
    }

    @Override
    public void jobDetail() {
        for (TopicWebsite website : topicWebsites) {
            for (int i = 0; i < 5; i++) {
                TopicWebsite topicWebsite = new TopicWebsite();

                topicWebsite.setWebsiteName(website.getWebsiteName());
                topicWebsite.setIconUrl(website.getIconUrl());
                topicWebsite.setHotValue((long) random.nextInt(6354147));
                //设置时间
                topicWebsite.setCreateTime(date);

                topicWebsiteMapper.insert(topicWebsite);
            }
        }
    }

}

2、job的历史数据初始化器

初始化器,主要是用于生成历史数据,用的是随机生成的过去30天内的时间,去new一个job。

然后调用job的init,设置date;然后调用job的细节。

上面我也说了,没必要搞两个,只是最初设计失误了。

总体逻辑,就是传入日期,然后根据那个日期,去造假数据。

package com..datavisual.quartz.init;

/**
 * desc:
 * 用于造初始化数据
 * @author : 
 * creat_date: 2018/6/11 0011
 * creat_time: 14:29
 **/
public interface Initer {
    /**
     * 具体的初始化逻辑,可参考
     * @return 成功或失败
     */
    Boolean init();
}

出问题的初始化器的源码:

package com.ceiec.datavisual.quartz.init;

import com.ceiec.datavisual.quartz.job.TopicWebsiteJob;
import org.joda.time.DateTime;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.stereotype.Component;

import java.util.Date;

/**
 * desc:
 *
 * @author: 
 * creat_date: 2018/6/11 0011
 * creat_time: 14:28
 **/
@Component
public class TopicWebsiteIniter implements Initer {
    @Autowired
    private TopicWebsiteJob job;

    @Override
    public Boolean init() {
        DateTime now = DateTime.now();
        //日期循环,30天
        for (int a = -29; a < 1; a++) {
            for (int b = 0; b < 24; b++) {
                int minutes = (int) (Math.random() * 60);
                Date date = com.ceiec.datavisual.quartz.DateUtils.getNeedTime(b, minutes, 0, a);
                if (a == 0 && date.after(now.toDate())) {

                } else {
                    job.jobInit(date);
                    job.jobDetail(360);
                }
            }
        }

        return true;
    }

}

3、目前为止,运行正常?

到目前为止,运行没什么问题,因为我都是用单元测试的方式去调用上面的initer.init方法。

真的吗?

4、加上定时触发机制

这些job,在上线后,还是需要继续运行。具体的间隔,是每十秒触发一次。

code如下:

package com..datavisual.quartz.schedule;

import com..datavisual.quartz.job.TopicWebsiteJob;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.scheduling.annotation.Scheduled;
import org.springframework.stereotype.Component;

import java.util.Date;

@Component
public class TopicWebsiteScheduler implements DataProduceScheduler {
    private static final Logger logger = LoggerFactory.getLogger(TopicWebsiteScheduler.class);

    @Autowired
    private TopicWebsiteJob job;
  
    @Override
    @Scheduled(cron = "0/10 * * * * ?}")
    public Boolean schedule() {
        logger.info("start...");
        job.jobInit(new Date());
        job.jobDetail(1);

        return true;
    }

}

5、问题出来了

就上面的代码,上线一运行,因为job比较多,说实话,也没注意一些细节,没去查看数据库的数据条数。

我一直以为没啥问题,直到运行了没一会,程序假死了,卡着不动了。

后来将堆转储拿出来分析,才发现,是因为每次init被多次调用了,每次调用都会从表里面查所有数据(一直以为只有10条真实数据)。

然后根据这些数据,去生成新的假数据。再插回表里。这时候表里的数据,差不多翻倍了。

再过10s后,再次查询,这次查到20条,然后,又造了20条假数据,写到表里,变成了40条。

再过10s后,再次查询,这次查到40条,然后,又造了40条假数据,写到表里,变成了80条。

。。。

然后就越来越慢,越来越卡。。。直到发现表里竟然变成了千万条数据,然后将java程序的内存撑爆了。

三、总结

其实这次主要的坑,在于自己设计功力不够,没有考虑清楚。数据库的数据是变化的,而我拿变化的东西作为基准,来生成假数据,再将假数据写入到原表,造成了

表里数据的指数级增长,然后撑爆了内存。

抛开这块不说,比较有意思的是,查找这个bug背后原因的过程,后边单独写。

推荐阅读:

点赞
收藏
评论区
推荐文章
Oracle 分组与拼接字符串同时使用
SELECTT.,ROWNUMIDFROM(SELECTT.EMPLID,T.NAME,T.BU,T.REALDEPART,T.FORMATDATE,SUM(T.S0)S0,MAX(UPDATETIME)CREATETIME,LISTAGG(TOCHAR(
Wesley13 Wesley13
4年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
皕杰报表(关于日期时间时分秒显示不出来)
在使用皕杰报表设计器时,数据据里面是日期型,但当你web预览时候,发现有日期时间类型的数据时分秒显示不出来,只有年月日能显示出来,时分秒显示为0:00:00。1.可以使用tochar解决,数据集用selecttochar(flowdate,"yyyyMMddHH:mm:ss")fromtablename2.也可以把数据库日期类型date改成timestamp
Stella981 Stella981
4年前
Django之Django模板
1、问:html页面从数据库中读出DateTimeField字段时,显示的时间格式和数据库中存放的格式不一致,比如数据库字段内容为2012082616:00:00,但是页面显示的却是Aug.26,2012,4p.m.答:为了页面和数据库中显示一致,需要在页面格式化时间,需要添加<td{{dayrecord.p\_time|date:
Stella981 Stella981
4年前
Prometheus监控学习笔记之PromQL简单示例
0x00简单的时间序列选择返回度量指标http_requests_total的所有时间序列样本数据:http_requests_total返回度量指标名称为http_requests_total,标签分别是job"apiserver",handler"/api/comments"
Wesley13 Wesley13
4年前
mysql中时间比较的实现
MySql中时间比较的实现unix\_timestamp()unix\_timestamp函数可以接受一个参数,也可以不使用参数。它的返回值是一个无符号的整数。不使用参数,它返回自1970年1月1日0时0分0秒到现在所经过的秒数,如果使用参数,参数的类型为时间类型或者时间类型的字符串表示,则是从1970010100:00:0
Easter79 Easter79
4年前
Twitter的分布式自增ID算法snowflake (Java版)
概述分布式系统中,有一些需要使用全局唯一ID的场景,这种时候为了防止ID冲突可以使用36位的UUID,但是UUID有一些缺点,首先他相对比较长,另外UUID一般是无序的。有些时候我们希望能使用一种简单一些的ID,并且希望ID能够按照时间有序生成。而twitter的snowflake解决了这种需求,最初Twitter把存储系统从MySQL迁移
Stella981 Stella981
4年前
HIVE 时间操作函数
日期函数UNIX时间戳转日期函数: from\_unixtime语法:   from\_unixtime(bigint unixtime\, string format\)返回值: string说明: 转化UNIX时间戳(从19700101 00:00:00 UTC到指定时间的秒数)到当前时区的时间格式举例:hive   selec
Wesley13 Wesley13
4年前
Oracle 行转列使用LISTAGG
使用数据库HRscheme的表作为示例。SELECTt.employee_id,listagg(t.job_id,',')withinGROUP(orderbyt.job_id)FROMjob_historytGROUPBYt.employee_id;     EM
Python进阶者 Python进阶者
2年前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这