记一次 .NET某上位机视觉程序 卡死分析

news/2024/11/13 8:39:23/文章来源:https://www.cnblogs.com/huangxincheng/p/18413420

一:背景

1. 讲故事

前段时间有位朋友找到我,说他的窗体程序在客户这边出现了卡死,让我帮忙看下怎么回事?dump也生成了,既然有dump了那就上 windbg 分析吧。

二:WinDbg 分析

1. 为什么会卡死

窗体程序的卡死,入口门槛很低,后续往下分析就不一定了,不管怎么说先用 !clrstack 看下主线程,输出如下:


0:000> !clrstack
OS Thread Id: 0x3118 (0)Child SP               IP Call Site
000000c478afd1d8 00007ffc284e9a84 [HelperMethodFrame_1OBJ: 000000c478afd1d8] System.Threading.WaitHandle.WaitOneNative(System.Runtime.InteropServices.SafeHandle, UInt32, Boolean, Boolean)
000000c478afd300 00007ffbf2cc19ac System.Threading.WaitHandle.InternalWaitOne(System.Runtime.InteropServices.SafeHandle, Int64, Boolean, Boolean) [f:\dd\ndp\clr\src\BCL\system\threading\waithandle.cs @ 243]
000000c478afd330 00007ffbf2cc197f System.Threading.WaitHandle.WaitOne(Int32, Boolean) [f:\dd\ndp\clr\src\BCL\system\threading\waithandle.cs @ 194]
000000c478afd370 00007ffbf1421904 System.Windows.Forms.Control.WaitForWaitHandle(System.Threading.WaitHandle)
000000c478afd3e0 00007ffbf0c8e2f4 System.Windows.Forms.Control.MarshaledInvoke(System.Windows.Forms.Control, System.Delegate, System.Object[], Boolean)
000000c478afd520 00007ffbf1425124 System.Windows.Forms.Control.Invoke(System.Delegate, System.Object[])
000000c478afd590 00007ffb995d6fe8 DevComponents.DotNetBar.StyleManager.OnColorTintChanged(System.Drawing.Color, System.Drawing.Color)
000000c478afd5f0 00007ffb995d69ff DevComponents.DotNetBar.StyleManager.set_ColorTint(System.Drawing.Color)
000000c478afd680 00007ffb995d694c DevComponents.DotNetBar.StyleManager.set_ManagerColorTint(System.Drawing.Color)
...
000000c478afd6b0 00007ffb995d50f9 xxx.MarkInspectPadControl.InitializeComponent()

有经验的朋友看到上面的卦象相信就知道咋事情了,即有工作线程创建了用户控件导致的,而且这个控件貌似和 DevComponents 有关,接下来的常规套路就是挖一下 WindowsFormsSynchronizationContext 对象看看到底是哪一个线程创建的,使用 !dso 即可。


0:000> !dso
OS Thread Id: 0x3118 (0)
RSP/REG          Object           Name
000000C478AFCF98 000002093b9143c0 System.Windows.Forms.WindowsFormsSynchronizationContext
...
0:000> !do poi(20939c91588)
Name:        System.Threading.Thread
MethodTable: 00007ffbf2769580
EEClass:     00007ffbf288c658
Size:        96(0x60) bytes
00007ffbf276aaf8  4001934       4c         System.Int32  1 instance                1 m_ManagedThreadId

按照剧本的话 WindowsFormsSynchronizationContext 应该会有2个,但这里只有1个,这一个还是主线程的同步上下文,这就完犊子了。。。完全不按照剧本走,这也是真实dump分析的复杂性,那到底是谁创建的呢? 天要绝人之路吗?

2. 出路在哪里

所有东西的落地都在汇编里,而汇编又在方法里,所以突破口就是寻找线程栈中的方法,接下来到 System.Windows.Forms.Control.MarshaledInvoke 方法里看一看可有什么大货,简化后如下:


private object MarshaledInvoke(Control caller, Delegate method, object[] args, bool synchronous)
{bool flag = false;if (SafeNativeMethods.GetWindowThreadProcessId(new HandleRef(this, Handle), out var _) == SafeNativeMethods.GetCurrentThreadId() && synchronous){flag = true;}ThreadMethodEntry threadMethodEntry = new ThreadMethodEntry(caller, this, method, args, synchronous, executionContext);lock (threadCallbackList){if (threadCallbackMessage == 0){threadCallbackMessage = SafeNativeMethods.RegisterWindowMessage(Application.WindowMessagesVersion + "_ThreadCallbackMessage");}threadCallbackList.Enqueue(threadMethodEntry);}if (flag){InvokeMarshaledCallbacks();}else{UnsafeNativeMethods.PostMessage(new HandleRef(this, Handle), threadCallbackMessage, IntPtr.Zero, IntPtr.Zero);}if (synchronous){if (!threadMethodEntry.IsCompleted){WaitForWaitHandle(threadMethodEntry.AsyncWaitHandle);}return threadMethodEntry.retVal;}return threadMethodEntry;
}

从卦中的代码来看,这个 SafeNativeMethods.GetWindowThreadProcessId 方法是关键,它可以拿到这个窗口创建的processidthreadid,接下来观察下简化后的汇编代码。


0:000> !U /d 00007ffbf0c8e2f4
preJIT generated code
System.Windows.Forms.Control.MarshaledInvoke(System.Windows.Forms.Control, System.Delegate, System.Object[], Boolean)
Begin 00007ffbf0c8dec0, size 4e9
00007ffb`f0c8dec0 55              push    rbp
00007ffb`f0c8dec1 4157            push    r15
00007ffb`f0c8dec3 4156            push    r14
00007ffb`f0c8dec5 4155            push    r13
00007ffb`f0c8dec7 4154            push    r12
00007ffb`f0c8dec9 57              push    rdi
00007ffb`f0c8deca 56              push    rsi
00007ffb`f0c8decb 53              push    rbx
00007ffb`f0c8decc 4881ecf8000000  sub     rsp,0F8h
00007ffb`f0c8ded3 488dac2430010000 lea     rbp,[rsp+130h]
...
00007ffb`f0c8dff0 488d55b0        lea     rdx,[rbp-50h]
00007ffb`f0c8dff4 ff151e1eddff    call    qword ptr [System_Windows_Forms_ni+0x8fe18 (00007ffb`f0a5fe18)] (System.Windows.Forms.SafeNativeMethods.GetWindowThreadProcessId(System.Runtime.InteropServices.HandleRef, Int32 ByRef), mdToken: 00000000060033c4)
00007ffb`f0c8dffa 448bf0          mov     r14d,eax

根据卦中的汇编以及x64调用协定,lea rdx,[rbp-50h] 就是我们的 processid,同时 mov r14d,eax 中的 r14d 就是我们的 threadid,突破口已找到,接下来就是深挖了。

3. 如何挖出进程ID和线程ID

有一点要知道 000000c478afd520 和 MarshaledInvoke 方法的 rsp 隔了一个 0x8,同时方法中影响 rsp 的 push 和 sub 都要计算进去,这里就不赘述了,具体可以参考文章:https://www.cnblogs.com/huangxincheng/p/17250240.html 简单计算后如下:


0:000> ? 000000c478afd520-0x8-(0n8*0n8)-0xF8+0x130
Evaluate expression: 843838379280 = 000000c4`78afd510
0:000> dp 000000c4`78afd510-0x50 L1
000000c4`78afd4c0  00000000`000029dc0:000> r r14
r14=000000c478afcf14
0:000> dp 000000c478afcf14 L1
000000c4`78afcf14  00000000`00000080

从卦中可以看到 processid=29dc ,threadid=0x80,这东西是何方神圣呢,我们用 ~ 来找它的真身吧。

0:000> ~
...18  Id: 29dc.80 Suspend: 0 Teb: 000000c4`7890d000 Unfrozen
...0:018> k# Child-SP          RetAddr               Call Site
00 000000c4`7a2ffcc8 00007ffc`28028ba3     ntdll!NtWaitForSingleObject+0x14
01 000000c4`7a2ffcd0 00007ffb`fa651cf8     KERNELBASE!WaitForSingleObjectEx+0x93
02 000000c4`7a2ffd70 00007ffb`fa652a51     wpfgfx_v0400!CPartitionManager::GetWork+0x17b
03 000000c4`7a2ffdc0 00007ffb`fa67a2fb     wpfgfx_v0400!CPartitionThread::Run+0x21
04 000000c4`7a2ffdf0 00007ffc`2a037bd4     wpfgfx_v0400!CPartitionThread::ThreadMain+0x2b
05 000000c4`7a2ffe20 00007ffc`2a76ced1     kernel32!BaseThreadInitThunk+0x14
06 000000c4`7a2ffe50 00000000`00000000     ntdll!RtlUserThreadStart+0x21

现在有点傻傻分不清了,怎么 winform 里还有 wpf 的渲染线程,有可能是 DevComponents 这种第三方控件在底层引入的吧。到这里路子又被堵死了,接下来该往哪里走呢?三步一回头,继续看主线程上的方法代码吧。

4. 在源码中寻找答案

虽然在两条路上的突围都失败了,但可以明显的看到离真相真的越来越近,也收获到了大量的作战信息,通过上面的 set_ManagerColorTint 方法的反编译,参考如下:


private void InitializeComponent()
{this.styleManager1.ManagerColorTint = System.Drawing.Color.Black;
}[Description("Indicates color current style is tinted with.")]
[Category("Appearance")]
public Color ManagerColorTint
{get{return ColorTint;}set{ColorTint = value;}
}

看到源码之后太无语了,其实就是一个简单的 颜色赋值,根据前面的探索styleManager1是由渲染线程创建的,所以主线程对它的赋值自然是得不到渲染线程的反馈。

那这个问题该怎么办呢?大概是如下两种吧。

  1. 重点关注 styleManager1 控件,用排除法观察程序运行状况。
  2. 看文档是否用了错误的方式使用 styleManager1 控件。

三:总结

这次生产事故还是挺有意思的,为什么 WinForm 中可以存在 CPartitionThread 渲染线程,最后还祸在其身,给我几百例dump分析之旅中添加了一笔色彩!

图片名称

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/796899.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

QT6 QML编程

QT6 QML编程使用AI技术辅助生成 [QT界面美化视频课程](https://edu.csdn.net/lecturer/7637)[QT性能优化视频课程](https://edu.csdn.net/lecturer/7637)[QT原理与源码分析视频课程](https://edu.csdn.net/lecturer/7637)[QT QML C++扩展开发视频课程](https://edu.csdn.net/le…

php短视频系统,提升系统健壮性离不开重试机制

php短视频系统,提升系统健壮性离不开重试机制随着互联网的发展php短视频系统中的业务功能越来越复杂,有一些基础服务我们不可避免的会去调用一些第三方的接口或者公司内其他项目中提供的服务,但是远程服务的健壮性和网络稳定性都是不可控因素。在测试阶段可能没有什么异常情…

前端基本功——面试必问系列(1):都2024了,还没吃透Promise?一文搞懂

该系列文章是为了帮助大家不管面试还是开发对前端的一些基本但是很重要的知识点认识更加深入和全面。想写这个系列文章的初衷是:我发现前端的很多基本知识。为什么用?怎么用会更好?原理是什么?很多人并不清楚写在前面: 大家好,我是山里看瓜,该系列文章是为了帮助大家不管…

2390. 从字符串中移除星号

给你一个包含若干星号 * 的字符串 s 。 在一步操作中,你可以: 选中 s 中的一个星号。 移除星号 左侧 最近的那个 非星号 字符,并移除该星号自身。 返回移除 所有 星号之后的字符串。 注意: 生成的输入保证总是可以执行题面中描述的操作。 可以证明结果字符串是唯一的。 示例…

软工作业:用python实现论文查重

github项目地址这个作业属于哪个课程 https://edu.cnblogs.com/campus/gdgy/CSGrade22-34这个作业要求在哪里 https://edu.cnblogs.com/campus/gdgy/CSGrade22-34/homework/13229这个作业的目标 python实现论文查重并进行单元测试我的github仓库链接:https://github.com/LilaS…

modbus调试助手/mqtt调试工具/超轻巧物联网组件/多线程实时采集/各种协议支持

一、前言说明 搞物联网开发很多年,用的最多的当属modbus协议,一个稳定好用的物联网组件是物联网平台持续运行多年的基石,所以这个物联网组件从一开始就定位于自研,为了满足各种场景的需求,当然最重要的一点就是大大提升了自己对该协议的深度理解和应用,尤其是面对各种场景…

VMware NSX Advanced Load Balancer (NSX ALB) 22.1.7 发布下载,新增功能概览

VMware NSX Advanced Load Balancer (NSX ALB) 22.1.7 发布下载,新增功能概览VMware NSX Advanced Load Balancer (NSX ALB) 22.1.7 - 多云负载均衡平台 应用交付:多云负载均衡、Web 应用防火墙和容器 Ingress 服务 请访问原文链接:https://sysin.org/blog/vmware-nsx-alb-2…

4、循环单链表

1、代码实现#include<stdio.h> #include<malloc.h> #include<assert.h> typedef int ElemType;typedef struct Node{ElemType data;struct Node* next; }Node,*PNode;typedef struct SCList{PNode first;PNode last;int size; }SCList;void initSCList(SCLis…

论文分享 《Timing Side-channel Attacks and Countermeasures in CPU Microarchitectures》

Attack 概述 传统攻击(CONVENTIONAL ATTACKS) 在传统攻击中,Attacker 通常:与 Victim 共享硬件资源 (比如说 LLC,BP,Prefetcher 等) 可以观察,改变微架构状态攻击步骤本文作者将传统攻击分为以下三步,如 Fig 1 所示:定位“漏洞”:该漏洞包括“代码漏洞”(vulnerab…

PbootCMS访问页面出现PHP Fatal error: Allowed memory size of 13421

当访问 PbootCMS 页面时出现 PHP Fatal error: Allowed memory size of 13421 的错误,通常是由于 PHP 的内存限制过低导致的。这个错误表明 PHP 脚本在运行过程中耗尽了分配给它的内存。 解决方案增加 PHP 内存限制 检查 PHP 配置文件 (php.ini) 在脚本中动态增加内存限制详细…

什么是 PHP? 为什么用 PHP? 有谁在用 PHP?

PHP,全称“PHP: Hypertext Preprocessor”,是一种开源的服务器端脚本语言,主要用于网页开发,能够产生动态交互性数据。它由Rasmus Lerdorf在1994年创建,并随着时间的推移不断更新迭代,以适应互联网技术的发展。为什么使用 PHP? 开源免费:PHP作为一个开源项目,用户可以…

系统配置nginx环境运行pbootcms访问首页直接404的问题

在安装 PbootCMS 时遇到访问首页返回 404 错误的问题,尤其是在 Windows + Nginx + PHP 的环境下,可能涉及到多个方面的配置问题。根据你的描述,填写授权码后问题得以解决。以下是详细的分析和解决方案,希望能帮助遇到类似问题的朋友。 问题分析与解决方案 1. 配置 Nginx 伪…