记一次线上服务的内存泄露排查- 汇维网

,在风和日丽的一天，本人正看着需求、敲着代码，展望美好的未来。突然收到一条内存使用率过高的告警。,告警的这个项目，老代码是python的，最近一直在go化。随着go化率不断上升，发现内存的RSS使用率越飙越高。最终达到容器内存限制后，进程会自动重启。RSS如下图所示：,,看到这种不正常的RSS增长，第一反应是：是不是最近上的代码有什么问题？是不是发生了内存泄露？内存泄露可是大事，赶紧查查。于是将时间线拉长，看看是从哪天开始的。结果，现实是很残酷的。从项目刚上线的时候就有这个问题了。由于项目是2周一个版本，以前是还没达到内存限制，所以没有发出告警。,那么问题应该就是在最初的版本里。这个时候就想了想，难道是我们使用的框架本身存在缺陷？但是很快就否定了这个想法，因为我们使用的框架是其他项目已经上线已久的成熟框架。不应该有这个问题。,显然，看代码这种本办法是不可能发现问题的。于是想到了golang的性能分析工具pprof。由于pprof线上环境是不开启的，所以排查我这里只能去预发环境。,输入以上命令，会出现以下界面的内容：,,2.2.2.1 获取top10的内存占用,由于我们需要分析内存占用，所以这个时候输入一个top10，看看占用内存前10的都是哪些代码。,这个时候需要解释一下显示的指标的含义,2.2.2.2 查看占用函数调用栈,看完以上返回，明眼人应该就能看出，第一行这个newStream问题很大呀，让我们进去看看他哪行代码出了问题。需要用到一下命令,让我们输入list github.com/beorn7/perks/quantile.newStream一探究竟,2.2.2.3 分析泄露原因,看到这里，应该能看出这个newStream的内存占用，主要是因为生成了一个容量为500的数组。那这个数组是什么样的呢？,以上结构可以看出，生成一次需要占用的内存是50038字节，那么一次就是12000个字节,差不多是11.72kb。这么看来，应该是有个地方不停的调用，导致数据持续膨胀。看到这里，我们继续往下追。,由此看出，还不止使用一次newStream()。通过观看代码，我这里发现，此处的opts.AgeBuckets是等于5的，那么就意味着，循环生成了5个stream，实际上占用的内存是500*3*8*5=60000字节，也就是58.6kb。,2.2.2.4 分析调用链路,那么现在基本追溯完了大概的泄露原因。那怎么样能寻找是具体的调用链的呢，总不能一层一层往上查找调用吧？这个时候pprof提供了一个命令，可以把整体调用生成一张图片展示。命令如下：,只需要在命令中加一个-png，那么就会生成一张图片。当然为了方便寻找，最后可以指定图片生成地址。我这边抓取了和本文有关的一段截图，如下。,,根据上图链路，我们大致可以看出。应该是mysql的调用，在OnFinished处，prometheus的上报的地方出现了内存泄露。这个时候我们就可以追一下OnFinished处的代码了，因为之后的都是prometheus的调用，这是一个成熟的三方，理论不应该是他这个点出问题。,OnFinished的代码如下：,看到这里我想大家就应该知道了，go代码会为prometheus创建一个5*500的缓冲池，来记录数据，prometheus会周期性的调用/mertic来拉取对应的内容。那么这里是怎么造成内存泄露的呢？这里就要分析上述代码的这个label了。,通过查看函数调用，我这边发现label最终进入的是这个hashLabelValues中，如果已存在就返回对应的metricMap中的内容，如果不一样，则会创建一个新的缓冲池。内存泄露就出在这个创建中。,这个时候我就在想，难道是我们label采集的数据太多了？通过排列组合，我估算了一下内存最大值,getOperation(db)=4（操作类型，增删改查4种）,s.host=1,s.database=3（我们有3个db实例）,tableName=30（表名，保守估计最少30个）,hasErr, sqlState=2 （报错与没报错2个状态）,metrics.InjectTagValue(collector.MetricsTitle, db.Statement.Context, attachment)…,这里面记录的是请求，保守估计最少40个接口,这样算下来：4*1*3*30*2*40*5*500*8*3=1648mb。再加上程序本身的一些内存开销，感觉和我们碰到的问题能对上了。,于是一拍脑袋觉得发现了问题，但是又无法解决问题（抓的指标无法修改）。于是屁颠屁颠的升了服务器配置，将4c2g升为了4c4g。,没错，当你看到这里的时候，就知道，升配这件事情并没有结束。现实给了我一记响亮的耳光。,因为升配以后总觉得还是哪里有问题。于是还是每天都在不停的观察RSS情况。结果，还真发现问题了。因为内存还在坐火箭，这不科学啊。,当我准备继续深入研究代码的时候，我的一位同事提醒了我，你可以去看下/metrics具体上报了什么。说时迟那时快。于是抓取了/metrics里的上报数据，看到了以下数据：,这不看不要紧，一看——原来startpoint里上报的是restful风格的请求地址。那么上面的计算缓冲池的算法，就要再乘一个无限膨胀的startpoint。这给多少个G内存也都不够。,于是继续查看代码，看能不能关闭startpoint上报。这一查，果然有：,,看到这个设置START_POINT的环境变量，能关闭startpoint上报。于是立马加到生产环境后重启服务器。上线后观察了一段时间，RSS使用量如下图所示：,,到此，此次内存泄露问题终于排查并修复完成。真是有惊无险。,这边大致归纳下go语言中有哪些常见的内存泄露。,goroutine泄露是开发过程中碰到最常见、最频繁的。一般经常碰到的是以下几种，由于网上相关的文章太多了，就不用代码举例了。,结构使用不当也是开发中常见的，只是可能并发不高，或者内存泄露的不多，导致使用者容易忽视掉。,上面两段代码，会有5个字节的泄露，因为字符串和切片的两个变量，底层是共享内存的。只要str1或s1一直在用，str0和s0就不会回收。这样剩下的5个字节或者5个int就会有临时的泄露。这个场景，如果在高并发，并且数据够大的情况下，就算是临时的泄露，也可能对性能有极大的影响。,指针类型的这段代码，其实和上面字符串、切片的例子很像，指针是指向内存地址的。只要ptr1没释放，前面的指针数组中未被用的指针就不会释放，从而导致临时的内存泄露。,打印结果如下：,看结果可知，三条打印的地址各不相同，说明数组是值传递的，那这会有什么问题呢？毕竟我们很多代码都是这么写的。,问题在于，只要传递的这个数组足够大，那么调用一次就会生成一个一样大小的新地址，这样会消耗大量内存。如果短时间内无法GC，会产生临时的内存泄露。这种泄露对于高并发是致命的。,以上代码，之所以会造成内存泄露。是因为time.After的底层是实现了一个timer，只要定时器未到时间，这个定时器就不会被gc回收，从而造成临时的内存泄露。如果这里的代码没写好，定时器都是新创建的，那么就会造成永久性的泄露。,其实golang中的内存泄露远不止上文提到的这些。有些可能甚至连查都查不到。这个时候还是要提醒大家，不仅要了解问题，还要学会查找问题。这样不管遇到什么问题，都能发现蛛丝马迹，问题也将迎刃而解。

1 原创文章作者：cmcc，如若转载，请注明出处： https://www.52hwl.com/17051.html

2 温馨提示：软件侵权请联系469472785#qq.com（三天内删除相关链接）资源失效请留言反馈

3 下载提示：如遇蓝奏云无法访问，请修改lanzous(把s修改成x)

4 免责声明：本站为个人博客，所有软件信息均来自网络修改版软件，加群广告提示为修改者自留，非本站信息，注意鉴别

记一次线上服务的内存泄露排查

关于作者

cmcc

相关推荐