记一次SAE Web服务器的调优过程

发表于 2015年12月7日 11:12 阅读次数：

事情的原因，是发生在某个晚上的9点30左右，SAE的报警系统突然报出了异常，所有的Web服务器的负载突然变得很高，流量也变得异常的大。
这个是很有问题的，在SAE最前面的反向代理上，是部署了SAE自己开发的‘CC防火墙’的，如果出现了异常的被攻击的情况，这些异常的流量是不会到达
Web服务器的，现在这些流量都到达了Web服务器，说明要么是攻击没有被正常判断，要没就是这不是一次攻击。

事实上确实这也不是一次攻击。

随后的分析，我们发现了一堆比较‘奇怪’的应用，为什么说‘奇怪’呢，因为这些应用的访问趋势是这样子的：

这是其中一个应用的数据，然而在这个应用的帐号下面，大约有十个类似的应用，都是这样的趋势，所以对于我们的Web服务器来说，在特定的时刻要接受
接近10倍左右的流量，对于当前的规模就有点‘顶不住’了。

所以讨论过后，大家的想法还是要对Web服务器进行扩容，来满足这样突发的流量增长。但与此同时，Web服务器也有些不一样的异常，在报警的时候，系统负载
比较高，CPU也没有什么空闲了，但是有个比较特殊的现象，就是system占用的CPU比user占用的CPU要高，这是明显不合理的，一般情况下，system占用CPU较高
意味着系统可能存在瓶颈，比如大量的锁争用等情况。

所以，在着手准备扩容Web服务器的同时，也尝试对现有系统进行一些性能分析，看是否能找到瓶颈，便于做一些优化，提升单Web服务器的容量。

分析的第一步，就是要收集系统运行时的信息，因此我们使用了 perf 这个工具，在系统中对httpd进程进行了抓取，并使用
FlameGraph生成相应的火焰图。

$ perf record -g -a # 等待收集一段时间后Ctrl-c 退出
$ perf script | stackcollapse-perf.pl | flamegraph.pl > flame.svg

最终生成的火焰图如下：

看到这个图，一切都明白了，系统在此阶段调用了太多的connect，尝试建立TCP连接，造成了大量的系统开销，从而影响了整体的性能。
那么为什么会导致这个问题？

用户的代码逻辑非常简单，只是从memcache中取出一个值，然后做一个简单的转换，然后输出。那么，问题就出在了memcache上。

这其实是一个历史遗留问题，SAE的Web服务器是一个纯共享的环境，用户与用户之间，可以做到请求与请求之间的隔离，因此，服务器上的
每个httpd进程都可以为所有的应用服务，实现动态调度，这样的设计，保证了资源的高利用性，能够实现资源利用的最大化。

在当初实现资源隔离的时候，对于memcache，用户初始化memcache时总会帮他建立一个独立的连接，当使用完成，再把连接断掉。
问题就出在了这里，当应用访问量很大，每个请求占用的时间又很短，就出现了频繁和memcache建立连接-断开，又建立连接-断开的死循环。
造成的系统开销非常巨大。

找到了原因，那对应的解决办法就简单了，只需要修改memcache的扩展，把短链接修改为长连接就好，除此之外，如果遇到连接断掉的情况，则
尝试重新连接，保证一个用户的使用不会影响到下个用户。
就这样，最突出的问题就基本解决了。

当然，对于用户来说，其实完全不用关心用的是长连接或者是短连接，不需要调整代码，初始化的Memcache自动地就变成了长连接，完全没有感知。

再看一看调整之后的火焰图：

好了不少，没有像之前的火焰图那样非常夸张，相对的消耗都比较平均。

最后在一台即将上线的机器上使用ab测试了一下。

修改前：

Concurrency Level:      100
Time taken for tests:   77.282 seconds
Complete requests:      100000
Failed requests:        3863
   (Connect: 0, Receive: 0, Length: 3863, Exceptions: 0)
Write errors:           0
Non-2xx responses:      3863
Total transferred:      29684301 bytes
HTML transferred:       9357111 bytes
Requests per second:    1293.96 [#/sec] (mean)
Time per request:       77.282 [ms] (mean)
Time per request:       0.773 [ms] (mean, across all concurrent requests)
Transfer rate:          375.10 [Kbytes/sec] received

修改后：

Concurrency Level:      100
Time taken for tests:   16.554 seconds
Complete requests:      100000
Failed requests:        6080
   (Connect: 0, Receive: 0, Length: 6080, Exceptions: 0)
Write errors:           0
Non-2xx responses:      6086
Total transferred:      29450237 bytes
HTML transferred:       9218982 bytes
Requests per second:    6040.76 [#/sec] (mean)
Time per request:       16.554 [ms] (mean)
Time per request:       0.166 [ms] (mean, across all concurrent requests)
Transfer rate:          1737.32 [Kbytes/sec] received

QPS 从1293.96 [#/sec] 提升到了6040.76 [#/sec]，效果还是比较明显的。

修改了memcache的逻辑，又加上扩容了几台服务器，之后，就没有再出现报警的情况，问题算是得到比较好的解决。

当然，使用了长连接之后，服务器维护的连接数会有很大的提升，基本上从原来了200个连接上升到接近2000个连接，不过对于我们的服务器来说，
这些连接其实不算什么，所以其实也不会有太大的影响，和长连接带来的性能提升相比，还是相当值得的。