您的位置:  首页 > 技术杂谈 > 正文

全面解析云智慧数据中心统一运管解决方案

2022-03-16 11:00 https://my.oschina.net/yunzhihui/blog/5489872 云智慧AIOps社区 次阅读 条评论

云智慧 AIOps 社区是由云智慧发起,针对运维业务场景,提供算法、算力、数据集整体的服务体系及智能运维业务场景的解决方案交流社区。该社区致力于传播 AIOps 技术,旨在与各行业客户、用户、研究者和开发者们共同解决智能运维行业技术难题,推动 AIOps 技术在企业中落地,建设健康共赢的AIOps 开发者生态。

引言

2020年,数据中心建设被中央正式列入新基建战略,与此同时,疫情下数字经济及IT国产化的高速发展也催生了各行各业对数据中心的新需求,即在加大建设投入的同时,更要保证其运行稳定及服务可用。此外,我国当前数据中心建设仍面临着布局结构性失衡、能耗水平居高不下等问题。因此,推动企业数据中心朝着绿色、安全、高效的方向进一步发展以及解决能耗、需求匹配等难题是当前数据中心的的首要任务。

趋势解读

从企业内部运营目标来看:管理数字化、流程规范化、人员专业化、技术标准化、运维自动化都会成为核心诉求。此外,在Gartner最新发布分析报告中,通过对全球400多位 I&O 领导者调研总结,给出了以下三条DCIM(Data Center Infrastructure Management)领域发展建议:

  • 将DCIM⼯具与运维领域的IT服务管理(ITSM)、IT资产管理(ITAM)、IT运营管理(ITOM)及配置管理数据库(CMDB)等软件相集成,从⽽更完整地了解运营情况;
  • 在物联⽹、边缘计算、微型数据中⼼、服务管理、⼯作流和⾃动化等技术领域设置集成点,从⽽全⾯了解基础设施情况;
  • 利⽤运营分析和⾃动化,实施本地部署或XaaS模式工具,从⽽在混合环境中最⼤限度地提⾼资源利⽤率,并增强服务交付能⼒。

需求与挑战

通过持续地落地实施与走访调研,大多数企业会以提高数据中心 ROI 为最终目标来开展建维工作。因此,保障数据中心业务连续性也会被当作当前阶段重要目标,并且会以场景关联人员周期、资产生命周期、管理周期三环,提供“人、事、物”综合管理的能力。

  • “物”即资产生命周期:有形与无形资产从采购、入库到下架、清理。
  • “人”包括内部与外部人员:实现对其入职、学习、工作、离职管理。
  • “事”不仅涵盖日常工作流程化规范化管理,还要对紧急事件进行预防演练、应急处理过程进行管理。

此外,当前阶段数据中心管理仍面临以下三大类问题:

  1. 整体业务发展问题:涵盖范围广、扩张速度快、运维成本高;
  2. 运维技术(数据+工具)问题:设备定位难、工具智能化不高、数据利用率低;
  3. 精细化管理支撑问题:资产盘点慢、资源规划难、安全管控难。

解决方案与功能场景介绍

基于以上需求及挑战,云智慧为企业提供数据中心统一运管解决方案,帮助企业实现对数据中心基础设施层面人、事、物的全面智能化管控。

整个解决方案包括软件和IoT智能硬件两部分。其中软件平台部分帮助用户实现数据中心业务管理智能化,为企业赋能多样化能力:如多平台整合、大数据运维、自动化运维、规划设计、决策支撑等; 而IoT智能硬件部分则是帮助用户重点实现数据中心资产管理智能化,以及通过丰富的感知器从数据源头控制资产生命周期的时效性与准确性。

此外,通过众多落地案例,云智慧总结了数据中心运维过程中最有代表性的六大场景,包含全资源管理、运维监控、统一调度、全景可视、智能分析、方案推荐。下面我们将对相关场景做详细介绍:

  • 资产全生命周期管控,有效降低资产总体拥有成本

针对新形态数据中心资产管理的创新型需求,通过“软件+硬件+流程引擎”为一体的资产管理解决方案,实现资产管理的智能化、自动化全生命周期管控,帮助客户有效降低资产总体拥有成本:

•通过资产库存管理功能,为客户降低IT资产的追踪成本,减少资产销账。

•通过利用率分析,帮助客户快速检索闲置资产,提高资产利用率

•通过资产安全管理,降低资产损坏以及由于数据丢失而导致的额外费用,降低资产缩水风险

•通过保养和配置管理,帮助客户降低保养、维修和召回的费用,减少汇报的需求

•最后协助客户提升操作的合规性。

  • 以全资源监控、全告警覆盖等打造 统一营维平台

统一营维平台是将数据中心内包含的资产、容量、线缆、供电、制冷、能耗、环境、微环境、运算等资源进行了有效整合与利用,实现了跨专业、跨区域、跨范围的资源整合与管理。 此外,结合自有精确到U级定位硬件,通过灵活可配的流程管理引擎,对各形态资产从验收到报废全运维生命周期的状态及位置进行实时评估和跟踪,从而实现资产管理的精细化、标准化、无纸化,以此保证资产数据的持续准确有效,降低人为操作风险。

统一运维平台是在上述资产全生命周期管理的基础上提供了基础环境的全覆盖监控,包括机房环境、机柜微环境以及基础资源。

下图展示了云智慧可以监控的典型资源与对应的告警类别。特别是对于机柜级微环境的温湿度的实时监控能力,弥补了当前绝大部分数据中心管理的空白。例如:云智慧可以监控每个机柜的局部制冷量,避免过度制冷或者局部过热导致的IT设备运行故障。

此外,云智慧还结合了基于“规则+算法+LED定位”的自动预警、告警功能为运维人员提供更快速、更准确的故障发现与处置手段,从而提升了整个业务系统的可用性。如:当发生温度预警/告警时,云智慧统一运管平台可通过LED灯的闪烁或高亮给予运维人员直观的指示;此外,系统还可以通过3D可视化、2D图表等人机交互界面,对数据中心内的全部资源及子系统进行集中管理,以及利用数据处理引擎对数据进行多维度的处理与分析,不断对故障预警的时效性和准确性进行提升;最后,还可以通过友好的交互界面、集中统一管理、集中告警呈现、多维信息融合、问题快速溯源、故障影响判断等能力,真正做到统一平台界面的综合类监控交付。

  • 打通风火水电等各专业领域工具墙,实现统一调度

数据中心的安保级别通常较高,监控不到位就会导致非法入侵、人员违规行为等危险行为,若未及时纠正规范,就会对数据中心安全可能造成严重威胁。

云智慧方案通过监控视频、红外遥感、人脸识别、门禁系统等功能对园区各进出场景跟踪记录,针对异常人员行为分析及跟踪警告。系统通过巡查人员的手持设备记录每个巡查点的准确时间和数据,从而使得巡查人员按照手持设备中的巡查计划依序巡查每个巡查点,得到数据采集后再把手持设备的信息录入到系统,从而得到准确全面的巡查数据。

下图为云智慧具有代表性的案例截图。 在实际企业落地过程中,以下功能可以进行组合分拆,以满足企业对安全管理的个性化要求。

  • 左上:对巡查人员的进出时间以及当前所处的位置进行监控;
  • 右上:提前制定和发布巡检计划和设计巡检路径,设定巡查点位置;
  • 左下:对巡检人员的实际巡检路径以及各巡查点的实际完成时间进行跟踪,一旦超时将触发超时告警;
  • 右下:在一些具有区域安全管控的场景下,可以对不同级别的巡查人员设定电子围栏,一旦越线将触发越权告警。

  • 以工单/事件/流程为载体实现标准化调度

云智慧为企业提供了内容完整、流程标准的运维服务功能,以实现数据中心日常运维的流程化、标准化、精细化。此外,云智慧通过帮助企业建立快速响应并适应企业业务环境及发展的基础设施运维模式,实现类比 ITIL 的流程框架、运维自动化管理,从而转变企业基础设施运维的环境,使得基础设施运维各部门和IT运维部门领导者能够拥有统一的语言、统一的界面来面对各项挑战以及理解新变化所带来的影响。 与此同时,云智慧会为企业提供丰富的移动端应用,实现多渠道协同办公。云智慧的移动应用可以兼容市面上绝大多数的移动平台——无论是操作系统还是终端设备类型,给企业带来更便捷的使用体验。

  • 以数字孪生/3D全景可视化/全资源可视化等解决认知难题

云智慧利用强大的可视化引擎,将多维度动态数据融入到数据中心园区、楼宇、设备、设施、管路、桥架等实物3D之中,实现全元素三维可视化。此外,云智慧提供了强大的2D/3D 可视化自动切换展现、自定义路线巡游、第一视角参观功能,并且可通过鼠标、键盘的简单操作即可实现数据的查询、检索、分类、定位等功能,大幅地改善了普通静态界面的单调、交互性差、操作和信息传递效率低、决策和响应度慢等问题,让运维工作变得简单、直观、灵活、高效。

  • 自研数据中心容量管理,衡量数据中心 “绿色”是否达标

正如行业趋势分析中提到的“数据中心面临日益增长的资源和电力需求”,电力效率以及功率密度方面的问题已成为影响企业可持续发展的重要因素,因此容量管理成为数据中心运营的重要关注点。

云智慧解决方案通过外部采集设备、设施进行数据整合,并通过后台AI算法计算出数据中心实时的PUE、CLF、PLF、WUE等能耗指标;此外,还可以按设备类型、机房区域等方式进行分类统计分析,必要时可形成热度图、趋势图。与此同时,系统能够将能耗成本、能耗组成情况进行ECC大屏等多种形式展现,同时可根据变化趋势及时地进行信息预判,结合特定的算法模型分析效率损失的原因,协助企业从整体上改善效能。

  • 以数据做底座、算法为支撑、报告为出口,为决策提供有力依据

云智慧通过“数据+算法+报告”相结合的形式,为决策提供有力依据。例如:云智慧支持对资源的统筹、规划与管理,实现现有资源的充分评估、利用。此外,还可通过丰富的筛选条件,快速、准确定位业务可用区域,提高资源利用率。在资源规划设计或割接环节中,云智慧可进行资源预调配(演练),模拟构建方案,根据算法引擎进行预部署的自动演算,生成计划方案与分析报告,还可模拟故障影响范围,实现关键设备影响分析的快速判断,并生成影响方案与分析报告。通过上述这些手段可以帮助企业提高SLA、规避风险、提供可靠的决策依据。

案例分享

  • 某五大行之一总行数据中心(两地三中心)

  • 某保险公司数据中心监控管理平台

  • IDC 智能综合运维服务平台

  • 某商业银行综合安全管控平台

  • 某航空公司上海生产中心

方案优势

  • 数字孪生之资产全生命周期 自动化 管控

首要优势在于该方案以资产全生命周期自动化管控手段搭建企业数字孪生的数据基础,包括自动化资产管理与动态可视化资源监测两方面:

  • 数字孪生之全生态监控

第二个优势点,一方面在于通过全生态监控支撑数字孪生的感知、监测诉求。云智慧的产品内置数百种采集器以及众多主流厂家的常见设备模型,支持上万个指标监测,对IT基础设施、动环、物联网等设施进行分布式采集;另一方面,支持数据中心环境、物理设施到应用性能的端到端全视图;此外,平台支持人员轨迹、链路、能耗的统一管控,从而实现100%全生态监控。

  • 数字孪生之多维呈现

第三个优势点在于其丰富的展示能力: 既支持传统2D环境下的各种图形图表,也支持3D环境下的BIM、虚拟现实,同时,云智慧还可以与LED硬件进行交互,实现与现实世界联动;平台为客户提供了基于AI算法的容量预测、沙盘演练手段,提升数据中心客户应急调度、预测性维护能力。

写在最后

近年来,在AIOps领域快速发展的背景下,IT工具、平台能力、解决方案、AI场景及可用数据集的迫切需求在各行业迸发。基于此,云智慧在2021年8月发布了AIOps社区, 旨在树起一面开源旗帜,为各行业客户、用户、研究者和开发者们构建活跃的用户及开发者社区,共同贡献及解决行业难题、促进该领域技术发展。

社区先后 开源 了数据可视化编排平台-FlyFish、运维管理平台 OMP 、云服务管理平台-摩尔平台、 Hours 算法等产品。

可视化编排平台-FlyFish:

项目介绍:https://www.cloudwise.ai/flyFish.html

Github地址: https://github.com/CloudWise-OpenSource/FlyFish

Gitee地址: https://gitee.com/CloudWise/fly-fish

行业案例:https://www.bilibili.com/video/BV1z44y1n77Y/

部分大屏案例:

您可以添加小助手(xiaoyuerwie)备注:飞鱼。加入开发者交流群,可与业内大咖进行1V1交流!

也可通过小助手获取云智慧AIOps资讯,了解FlyFish最新进展!

展开阅读全文
  • 0
    感动
  • 0
    路过
  • 0
    高兴
  • 0
    难过
  • 0
    搞笑
  • 0
    无聊
  • 0
    愤怒
  • 0
    同情
热度排行
友情链接