企业应用程序需要高度的可扩展性来满足庞大的最终用户群,这些组织中的 IT 团队面临的首要问题是监控正常运行时间并确保其业务应用程序的良好性能,为了解决这些问题,企业需要对端到端应用程序性能管理工具进行战略投资,使 IT 运营团队能够交付满足客户期望的业务应用程序。
企业使用的应用程序类型
将CRM、联系人管理、订单跟踪等关键业务应用程序迁移到云端是一种趋势,这种趋势正在迅速发展,特别是因为它对移动劳动力的生产力优势,大型企业也开始整合其基础设施并采用这种交付模式。
传统上,许多 ISV 还为第三方组织 (ASP) 提供 SaaS 应用程序,这些应用更多地针对中小企业市场,在中小企业市场中,由于成本和较少的维护问题而采用这些应用是主要驱动因素,还有一种趋势是将这些应用程序迁移到云(在线移动)友好型架构,以便它针对大型组织进行扩展,并可以降低维护和支持成本。
应用程序性能管理的含义是什么
应用程序性能管理就是通过深度监控、快速故障排除和跟踪最终用户体验来交付满足客户满意度的业务应用程序。为此,IT 运营团队还必须控制应用程序交付的整个过程,他们应该能够做出明智的决定并快速解决问题,并充分利用他们的时间。所有这些最终都会带来满意的客户、高效运行的 IT 运营和更好的投资回报率。
最终用户面临的首要问题:
- 在一天或一周的某些时间段内,应用速度很慢
- 损坏数据的严重应用程序错误
- L1 支持部门对问题原因的不当响应
- 以前的问题反复出现,阻碍了用户使用应用程序的能力
- 降低最终用户士气和生产力损失
运营团队在应用程序交付中面临的首要问题
- 缺乏适当的工具来解决停机问题
- 非集成工具使故障排除非常耗时
- 误报
- 无法了解停机对应用程序的真正影响
- 在各种技术团队之间转移责任,如网络团队、服务器团队、应用服务器管理团队、数据库团队等…
- 即使有这么多监控工具,也缺乏可操作的数据
- 由于正在监视大量资源,因此是时候确定问题的根本原因了
- 缺乏了解各种技术的熟练资源
运营团队的主要活动:
- 采取纠正措施并确保应用程序的正常运行时间
- 容量规划
- 确保最终用户体验
- 处理应用程序重新启动和备份
- 维护灾难恢复站点和高可用性站点
这些问题可以通过制定正确的流程和工具来解决。
传统的网络监控工具不够好
为什么这些应用程序通常很复杂?面向大量受众的应用程序通常使用 Java EE 或 Microsoft .NET 技术构建,这些通常是 Web 应用程序,使访问变得容易,并且也是多层的,以确保高可伸缩性。下面是使用 SaaS 交付模型的典型 Web 应用程序的体系结构图:
- Web 层
Web 层通常用于提供静态内容和其他丰富内容。它还通过将专用角色转移到同类最佳软件来帮助减少应用层的负载。通常,Apache,IIS,IBM HTTP 等由于其健壮性而通常扮演Web服务器的角色。 - 应用层
应用层由业务逻辑组成,负责与数据存储机制的交互,它还包含 MVC 体系结构中的表示层,此层的可伸缩性取决于应用层可以提供多少个用户会话。对于费用管理应用程序,组织使用 Oracle WebLogic 9 Application Server 作为中间件组件。 - 数据库层
这通常由 Oracle、SQL Server 等 RDBMS 或 MySQL 等数据库组成,这些数据库在 SaaS 部署中非常流行。数据库通常被分组以形成有助于确保高可用性和水平可伸缩性的网格体系结构。 - 示例技术挑战
费用管理应用程序的构建方式是,有两个数据库集群协同工作来存储数据。每个集群都有一个主数据库服务器和一个从数据库服务器。还有一个 Free Node 可以根据需要接管应用程序服务器或数据库服务器。因此,实际上,如果其中一个数据库集群出现故障,几乎 50% 的用户将受到影响,因为数据被分段到两个数据库集群中。
同样,应用程序服务器层有两种类型的服务器。一组五台应用程序服务器执行后端工作,如计划报告、数据挖掘等。而另一组三个应用程序服务器则为用户提供 Web 客户端。需要通过这些 Web 客户端应用程序服务器进行监视,以确保最终用户可以接受页面加载时间。 - 确定问题模式
可以做些什么?显而易见的解决方案是确保运营团队拥有正确的工具来首先监控性能。他们还需要配备正确的故障排除工具来检查服务器、应用程序服务器、数据库服务器和网络。通过主动监控应用程序性能,企业可以确保其员工拥有更好的体验和更高的生产力,从而帮助他们做出更好的决策。
需要什么样的管理工具
企业应用程序性能管理工具 = 基础架构性能管理 + 最终用户体验监控 + 性能故障排除工具
基础设施性能管理
这包括跟踪应用程序和服务器的性能指标,并确保服务器的最佳使用。传统的监控工具执行简单的正常运行时间检查,或者停止监控服务器的 CPU 利用率或内存利用率。但是,随着基础架构变得复杂,必须监视这些服务器上的应用程序及其性能指标,以更好地了解瓶颈所在。随着 N 层应用程序架构的出现,复杂性也随之而来。因此,监控数据库服务器、Web 服务器、邮件服务器和其他 Web 服务等各个层的正常运行时间和性能也很重要。
例如,为了检查服务器是否启动,我们可以对服务器执行 ping 操作。同样,要检查数据库的可用性,对服务器执行 ping 是不够的。我们需要运行 SQL 查询以确保数据库真正运行。此外,要了解 Oracle 数据库的性能,我们还需要监控特定于所监控资源的指标,例如缓存命中率、表空间使用率等。这类似于监视服务器的 CPU 利用率。监控这些指标的好处是可以更好地了解这些数据库的使用情况、更快的故障排除能力以及服务器的最佳使用情况。
最终用户体验监控
监视 CPU 使用率和内存使用率对于确保资源的技术端很有用。但是,它缺少一个关键功能。通过知道运行邮件服务器或运行 Web 服务器的服务器的 CPU 利用率低于 20%,它无法让您了解最终用户在使用您的服务时遇到的实际响应时间。
最终用户体验监控是基础架构性能监控的宝贵补充,因为它可以帮助您为服务用户提供更好的服务质量。
衡量最终用户体验的一些关键绩效指标包括以下指标:
- 加载网页需要多长时间
- 执行结帐交易需要多少时间
- 通过邮件服务器等发送电子邮件需要多少时间
- 执行 LDAP 搜索请求需要多长时间
- 通过 ftp 站点下载 1 MB 附件需要多少时间
监控最终用户体验有助于向业务部门证明您正在确保在言行上承诺的 SLA。
性能故障排除工具
报告问题后,需要多少时间才能确定问题的根本原因?数小时、数周或数月?是否应该将问题通知数据库管理员、应用程序服务器团队或开发团队?对于异构基础设施,这变得非常乏味。
应用程序故障排除工具可帮助您找出报告问题的根本原因。例如,Java 事务监视工具可以深入了解在 Application Server 中执行的 Java 事务的详细信息,并帮助确定哪些 SQL 查询需要时间才能执行,或者 Java 类中的哪些方法正在减慢应用程序的速度。这有助于为您的应用程序团队节省解决问题的宝贵时间。
从长远来看,它还有助于确保性能更好的应用程序,这些应用程序不仅可扩展而且可靠,使 IT 运营变得轻松。
应用程序性能管理(APM)工具
监控异构数据中心
Applications Manager 提供对服务器、应用程序服务器、数据库、ERP(如SAP)、Web服务、网络服务以及一系列其他应用程序管理功能的深入监控,这些功能将帮助IT管理员管理其资源。
深度监控可帮助您规划容量、快速排除故障并查看各种应用程序的利用率报告。它易于设置,并使用无代理方法进行监控。
对各种应用程序的开箱即用支持将帮助您的 IT 团队从单个控制台跟踪性能问题,从而使您的技术人员能够经济高效且轻松地解决问题。
对资源进行分组以做出更好的决策
帮助管理员对IT资源进行分组,并将其映射到其影响的业务服务。这将确保 IT 团队知道哪些事件比其他事件更重要,这也将有助于操作部门更好地了解服务器场。例如,了解哪些服务器属于在线商店应用程序,哪些服务器属于工资单,有助于确定生产问题的优先级。它还有助于确保时间和资源的最佳利用。
告警管理
太多不同的监控工具而没有任何形式的集成,可能会产生太多的噪音,即使真正的警报来了,错误警报也可能使 IT 团队沾沾自喜。因此,必须确保有适当的事件关联技术。投资集成的应用程序、服务器、数据库和网络服务监控工具有助于简化基础架构的管理。应用程序和网络服务映射还有助于提高有效事件与警报的比率。
图形显示,可帮助运营团队全面了解其环境
将相关资源分组为业务服务和警报管理功能有助于在等离子视图中提供应用程序拓扑图,这可以帮助运营团队全面了解基础架构的运作方式。
运营团队无需前往不同的服务器并使用 ping、四处寻找密码等,而是以图形方式表示网络、各种路由、服务器和应用程序的状态,可以帮助团队快速执行任务。
容量规划
容量规划对于确保 IT 团队按时配置服务器以满足业务需求非常重要。不同的应用程序和技术具有不同的指标,有助于进行容量规划。例如,如果使用的技术是 Java EE,那么有效运行的关键性能指标是 JVM 内存使用率、可用内存等。这些指标有助于了解应用程序上的负载,并确保良好的应用程序可伸缩性。
通过封装监控这些指标的复杂性来帮助容量规划,并提供易于使用的报告以实现有效规划。
企业需要高可扩展性的架构来满足其业务需求。这些体系结构使 IT 管理员使用传统的 NSM 工具进行管理变得复杂。此外,以更少的资源提供更多产品的压力迫使企业在不影响最终用户体验的情况下充分利用现有硬件。
Applications Manager 确保在关键任务应用程序上的投资在生产中按计划运行。此外,它还通过封装监控异构 IT 的复杂性来帮助了解应用程序停机时间、容量规划和快速故障排除。