fastapi+pytorch 推理遇到内存泄露问题

现象描述：uvicorn + fastapi + 不使用 async def 的时候，随着请求持续增加，内存会一直涨上去

但是内存不是线性增长的。当请求 QPS 很低的时候，几乎不怎么增长；但是当 QPS 比较大的时候，会一点点增长。

连续持续的 QPS 让内存增长非常缓慢

但是短短续续的大QPS，会让QPS刚到达的那几秒就有几十MB的快速增长，然后增长放缓。直到下一波大QPS到来。就像海浪拍岸一样

而且当没有请求的时候，即空闲的时候，内存也是不会下落的，属于只增不降

解决办法：

网上找到很多的解决办法：

把 fastapi 的视图函数从 def 改成 async def。我觉得这太蠢了，直接 pass
设置 LRU_CACHE_CAPACITY=1 环境变量。这个是我试了一下，单个进程内存在 900MB 左右，内存不在是属于「只增不降」了，而是有增有减。但是整体上，内存还是呈现一个波浪形的超缓慢增加的状态，也就是还存在内存泄露
使用 jemalloc 替代 glibc 的 malloc。这个方法目前是最好的，单个进程内存在 1040MB 左右，并且没有发现内存泄露了

所以建议使用 jemalloc 来解决问题

我的宿主机是 ubuntu22.04

我就直接使用 apt 安装 jemalloc 了