记一次 .net某智慧出行系统 cpu爆高分析-kb88凯时官网登录

来自：

时间：2024-08-08

阅读：

一：背景

1. 讲故事

前些天有位朋友找到我，说他们的系统出现了cpu 100%的情况，让我帮忙看一下怎么回事？dump也拿到了，本想着这种情况让他多抓几个，既然有了就拿现有的分析吧。

二：windbg 分析

1. 为什么会爆高

既然说是 100%，作为调试者得拿数据说话，可以使用 !tp 来观测一下。


0:000:x86> !tp
cpu utilization: 100%
worker thread: total: 382 running: 382 idle: 0 maxlimit: 8191 minlimit: 8
work request in queue: 8694
    unknown function: 6f62b650  context: 4a36bbbc
    unknown function: 6f62b650  context: 4a36e1d4
    unknown function: 6f62b650  context: 4a372384
    unknown function: 6f62b650  context: 239adfec
    unknown function: 6f62b650  context: 4a374994
    unknown function: 6f62b650  context: 239b9e14
    unknown function: 6f62b650  context: 2399fd9c
    ...

从卦中看,不得了，cpu 100% 之外,所有的线程池线程全部被打满，人生自古最忌满，半贫半富半自安。同时线程池队列还累计了8694个任务待处理，说明这时候的线程池已经全面沦陷，要想找到这个答案，需要用 ~*e !clrstack 命令观察每一个线程此时正在做什么，输出如下：


0:000:x86> ~*e !clrstack
os thread id: 0x22f4 (429)
child sp       ip call site
4bc1e060 0000002b [gcframe: 4bc1e060] 
4bc1e110 0000002b [helpermethodframe_1obj: 4bc1e110] system.threading.monitor.objwait(boolean, int32, system.object)
4bc1e19c 24aad7da system.threading.monitor.wait(system.object, int32, boolean)
4bc1e1ac 2376f0d6 servicestack.redis.pooledredisclientmanager.getclient()
4bc1e1dc 2420bbc6 xxx.service.cacheservice.getclient()
...
4bc1e234 24206fbe xxxbll.getxxxcount(system.collections.generic.dictionary`2)
4bc1e3e0 216e25f9 dynamicclass.lambda_method(system.runtime.compilerservices.closure, system.web.mvc.controllerbase, system.object[])
4bc1e3f0 238b86b7 system.web.mvc.actionmethoddispatcher.execute(system.web.mvc.controllerbase, system.object[])
...
4bc1eee0 2353d448 system.web.hosting.pipelineruntime.processrequestnotification(intptr, intptr, intptr, int32)
4bc1efb8 00a9e3c2 [contexttransitionframe: 4bc1efb8]

从卦中可以看到当前有 371个线程在 pooledredisclientmanager.getclient 中的 wait 上出不来，那为什么出不来呢？

2. 探究源码

要想找到这个答案，只能从源代码中观察，简化后的代码如下：


    public iredisclient getclient()
    {
        lock (writeclients)
        {
            assertvalidreadwritepool();
            redisclient inactivewriteclient;
            while ((inactivewriteclient = getinactivewriteclient()) == null)
            {
                if (!monitor.wait(writeclients, pooltimeout.value))
                {
                    throw new timeoutexception("redis timeout expired. the timeout period elapsed prior to obtaining a connection from the pool. this may have occurred because all pooled connections were in use.");
                }
            }
        }
    }
    private redisclient getinactivewriteclient()
    {
        int num = writepoolindex % writeclients.length;
        for (int i = 0; i < readwritehosts.count; i  )
        {
            int num2 = (num   i) % readwritehosts.count;
            redisendpoint redisendpoint = readwritehosts[num2];
            for (int j = num2; j < writeclients.length; j  = readwritehosts.count)
            {
                if (writeclients[j] != null && !writeclients[j].active && !writeclients[j].hadexceptions)
                {
                    return writeclients[j];
                }
            }
        }
        return null;
    }

仔细阅读卦中代码，之所以进入wait主要是因为 getinactivewriteclient() 方法返回 null 所致，从异常信息看也知道此时是因为 writeclients 池已满，那这个池是不是满了呢？可以把 writeclients 数组挖出来，使用 !dso 命令。


0:429:x86> !dso
os thread id: 0x22f4 (429)
esp/reg  object   name
...
4bc1e0d0 0ea38d18 servicestack.redis.redisclient[]
4bc1e100 0ea38bb0 servicestack.redis.pooledredisclientmanager
...
0:429:x86> !da 0ea38d18
name:        servicestack.redis.redisclient[]
methodtable: 237af1c0
eeclass:     0129a224
size:        52(0x34) bytes
array:       rank 1, number of elements 10, type class
element methodtable: 237ae954
[0] 0ea38dd4
[1] 0a9f9f58
[2] 0296e468
[3] 0c9786a0
[4] 0a9fe768
[5] 04a21f24
[6] 0aa0d758
[7] 10946d90
[8] 04a8c8b0
[9] 02a2a2a0
0:429:x86> !dumpobj /d 0ea38dd4
name:        servicestack.redis.redisclient
methodtable: 237ae954
eeclass:     2375d154
size:        152(0x98) bytes
file:        c:\windows\xxx\servicestack.redis.dll
fields:
...
0129aa48  4000169       7d       system.boolean  1 instance        1 k__backingfield
...

从卦中看 writeclients 池只有10个大小，并且都是 active=1，所以返回 null 就不足为奇了。

3. 为什么client都在使用中呢

要想找到这个答案，需要看下上层的 xxxbll.getxxxcount 方法是如何调用的，为了保护隐私，就多模糊一点。

从图中可以看到，问题出在用 foreach 去不断的迭代 servicestack.redis 导致 writeclient 池耗尽，导致大量的请求在不断的阻塞，不要忘了这里有371个线程在争抢哦，真是大忌。

接下来顺带洞察下这个 foreach 要 foreach 多少次？继续用 !dso 去挖。


0:429:x86> !dumpobj /d 077cec20
name:        system.collections.generic.list`1[[xxxinfo, xxx]]
methodtable: 241ad794
eeclass:     0193166c
size:        24(0x18) bytes
file:        c:\windows\microsoft.net\assembly\gac_32\mscorlib\v4.0_4.0.0.0__b77a5c561934e089\mscorlib.dll
fields:
      mt    field   offset                 type vt     attr    value name
01860eec  4001891        4     system.__canon[]  0 instance 077e0048 _items
0129c9b0  4001892        c         system.int32  1 instance      307 _size
0129c9b0  4001893       10         system.int32  1 instance      307 _version
01296780  4001894        8        system.object  0 instance 00000000 _syncroot
01860eec  4001895        4     system.__canon[]  0   static

从卦中看当前需要循环307次，也就再次验证了池耗尽的说法，我知道心细的朋友肯定会说，卡死这个我认，但能导致 cpu爆高我就不能理解了，其实你仔细阅读源码就能理解了，这是经典的 锁护送(lock convoy) 现象，因为满足如下两个条件。

多线程的 foreach 高频调用。
wait 导致线程暂停进入等待队列。

4. 如何解决这个问题

知道了前因后果，解决起来就比较简单了，三种做法：

将 foreach 迭代改成批量化处理，减少对 writeclient 的租用。
增加 writeclient 的池大小，d88尊龙官网手机app官网有所介绍。
servicestack.redis 的版本非常老，又是收费的，最好换掉已除后患。

三：总结

这次生产事故分析还是非常有意思的，一个看似阻塞的问题也会引发cpu爆高，超出了一些人的认知吧，对，其实它就是经典的 lock convoy 现象，大家有任何dump问题可以找我，一如既往的免费分析。

简介在现代微服务架构中，服务发现（service discovery）是一项关键功能。它允许微服务动态地找到彼此，而无需依赖硬编码的地址。以前如果你搜 .net service discovery，大概率会搜到

2024-09-09 23:44:45

一：背景1. 讲故事前些天有位朋友找到我，说他们的系统出现了cpu 100%的情况，让我帮忙看一下怎么回事？dump也拿到了，本想着这种情况让他多抓几个，既然有了就拿现有的分析吧。二：windb

2024-08-08 21:57:07

目录什么是 aop ？ .net core 中有哪些 aop 框架？基于 castle dynamicproxy 实现 aop ioc中使用 castle dynamicproxy 实现事务管理实现用户自动填充什么是 aop ？aop（aspect

2024-07-04 23:25:01

like运算符很好用，特别是它所提供的其中*、?这两种通配符，在windows文件系统和各类项目中运用非常广泛。但like运算符仅在vb中支持，在c#中，如何实现呢？以下是关于likestring的四

2024-06-12 11:50:22

目录前言1.c4996 ：2.c20573.e01694.e00405.e00296.e00207.c62628.c42449.c206510.c214311.lnk116812.c214613.c206914.c386115.e012716.c218117.c246618.c2057结语前言本文章

2024-06-10 00:05:09

目录1.安装 .net core 托管捆绑包2.iis服务器配置3.网站添加流程4.visual studio 2022程序发布注意事项支持下列操作系统：windows 7 或更高版本windows server 2012 r2 或更

2024-06-10 00:05:03

目录kb88凯时官网登录的解决方案一：去掉toarray()kb88凯时官网登录的解决方案二：把class改成structkb88凯时官网登录的解决方案三：手动gckb88凯时官网登录的解决方案四：调整gc的类型经常看到有群友调侃“为什么搞java的总在学习jvm调优？那是因为java

2024-06-10 00:04:57

目录前言技术准备中间件简介编写自定义中间件中间件的潜力使用/map分支管道使用mapwhen分支管道使用中间件构造条件在asp.net core 3.0及更高版本中使用中间件重写终止中间

2024-06-10 00:04:55

目录一、打开vs2019选择创建新项目二、选择语言为c#，然后选择“asp.net web应用程序（.net framework）” 三、填写项目名字与存放位置后点击创建项目四、右键添加新项

2024-06-10 00:04:52

目录periodictimerbackgroundservice结合使用总结在软件开发过程中，有时候我们需要定时地检查数据库中的数据，并在发现新增数据时触发一个动作。为了实现这个需求，我们在 .net

2024-06-10 00:04:48

在某些情况，我们希望能延迟一个依赖的初始化。如果使用的是autofac，我们可以通过注入lazy来实现。我们对 autofac github上提供的一个例子进行进行简单改造，跑起来看看。
原exa

2024-06-10 00:04:46

目录什么是定时任务什么是quartz涉及知识点quartz安装创建一个简单的定时器任务1. 创建工作单元job2. 创建时间轴scheduler3. 创建触发规则trigger4. 创建任务描述5. 建立三

2024-06-10 00:04:44

目录简介项目体验简介此预览版添加了对使用 blazor 组件进行服务器端呈现的初始支持。这是 blazor 统一工作的开始，旨在使 blazor 组件能够满足客户端和服务器端的所有 web u

2024-06-10 00:04:41

目录项目简介项目主要功能技术架构项目结构工具部分截图平常在我们电脑，我们都会安装非常多的软件，很多软件默认都会向系统注册右键菜单功能，这样方便我们快捷打开。比如图片文

2024-06-10 00:04:39

目录前言quic api小试牛刀前言随着今年6月份的 http/3 协议的正式发布，它背后的网络传输协议 quic，凭借其高效的传输效率和多路并发的能力，也大概率会取代我们熟悉的使用了几十

2024-06-10 00:04:35

目录正文【示例1：查询】【示例2：分页】【示例3：增/删/改】【示例4：输出参数】【示例5：存储过程】正文由于该工具近来被广东省数个公司2b项目采用，且表现稳定，得到良好验证，故在此推

2024-06-10 00:04:33

本博客将测试messagepack 和system.text.json 序列化和反序列化性能
项目文件：program.cs代码：using benchmarkdotnet.running;using demo;var summary = benchmarkrunner.run

2024-06-10 00:04:31

目录1、环境信息2、支持多种计算机编程语言3、redis官方4、下载安装5、简单使用5.1、.net core 3.1引入redis包5.2、简单例子调用6、redis文件说明redis（remote dictionary s

2024-06-10 00:04:29

目录正文一、瞬时生命周期（transient）二、作用域生命周期（scoped）三、单例生命周期（singleton）四、如何选择合适的生命周期五、实现自定义的生命周期六、总结正文asp.net core 的

2024-06-10 00:04:26

目录正文使用select.htmltopdf.netcore效果图展示首先使用chatgpt生成个人简历信息代码部分pdfreport.css :正文现在有许多将html导出pdf的第三方包，这里介绍使用的是select.

2024-06-10 00:04:24

目录探索接口路由创建自定义接口创建更复杂的接口总结在本文中，我们将讨论asp.net core中的新路由。我们将了解什么是接口(endpoints)路由，它是如何工作的，它在哪里使用，以及如

2024-06-10 00:04:21

目录一、概述二、将 keys 保存在 input model 中三、定义 modelbinderfactory 和 modelbinder四、在 asp.net core 项目中替换 modelbinderfactory五、定义 automapper 的 t

2024-06-10 00:04:19

目录一：背景1. 讲故事二： windbg 分析1. 程序现象2. 理解 windowsformssynchronizationcontext3. 卡死的真正原因4. 7号线程到底创建了什么控件三：总结一：背景1. 讲故事这世间事

2024-06-10 00:04:17

目录正文dbset清除计划ientitytypeconfiguration(表配置)repository(仓储)autofac数据库配置项目架构和源码正文efcore是微软官方的一款orm框架，主要是用于实体和数据库对象

2024-06-10 00:04:14

.net 6 中，使用system.drawing操作图片，生成kb88凯时官网登录的解决方案或打包的时候，会有警告，意思是system.drawing仅在 'windows' 上受支持。微软官方的解释是：system.drawing.common nu

2024-06-10 00:04:12

目录故障说明错误现象程序包管理器提示解决故障说明maui项目是日常使用的项目,一直都好好的某一天修改了几行代码后,突然项目无法编译了,提示nu1105错误从git重新拉取一份

2024-06-10 00:04:10

验证和授权是两个独立但又存在联系的过程。验证是检查访问者的合法性，授权是校验访问者有没有权限查看资源。它们之间的联系——先验证再授权。贯穿这两过程的是叫

2024-06-10 00:04:07

目录一、注册服务二、解析依赖三、实现自定义的服务提供程序四、总结asp.net core 是一个跨平台、高性能的框架，它提供了一种依赖注入（di）容器，用于管理应用程序中的对象和服务

2024-06-10 00:04:04

目录asp.net core 默认配置提供者配置环境用户机密信息asp.net core 默认配置提供者加载现有的 iconfiguration加载项目根目录下的 appsettings.json加载项目根目录下的 app

2024-06-10 00:04:02

目录1 什么叫做中间件？2 请求短路与中间件顺序3 中间件配置方法use、run、map3.1use 方法配置中间件3.2run 方法配置中间件3.2map 方法配置中间件4 自定义中间件1 什么叫做中

2024-06-10 00:03:59

2024-01-31

2024-02-26

2024-02-22

2024-01-31

2024-06-10

2024-01-31

记一次 .net某智慧出行系统 cpu爆高分析-kb88凯时官网登录

一：背景

1. 讲故事

二：windbg 分析

1. 为什么会爆高

2. 探究源码

3. 为什么client都在使用中呢

4. 如何解决这个问题

三：总结

热点内容

免费资源网

在线工具

扫一扫随时看

本站下载频道