一、項目背景
隨著(zhù)機房設備的逐步增多,該產(chǎn)業(yè)園的運維管理工作產(chǎn)生了較大壓力,無(wú)法及時(shí)得知園區所屬設備的運行狀態(tài),沒(méi)有一套統一的運維監控平臺,直接導致了:
1、IT運維部門(mén)不能提前預知故障隱患,提前排除可能發(fā)生故障的隱患;
2、當故障發(fā)生時(shí),IT人員不能第一時(shí)間發(fā)現故障;
3、IT人員分析處理故障,沒(méi)有一個(gè)從IT基礎架構到業(yè)務(wù)可用性的全棧監控工具,靠人工逐層分析,效率低下;
4、排查故障之后,下次再出現類(lèi)似的故障時(shí),沒(méi)有有效的、可持續消費的知識記錄。
綜上,為了解決業(yè)務(wù)支撐系統全方位的保障,建設一套統一、開(kāi)放、自主、可持續發(fā)展全鏈路運維監控平臺已成為必要。
二、解決方案
為完善該產(chǎn)業(yè)園信息化系統,向運維人員提供有效幫助,更高效率開(kāi)展運維工作。在現有信息化相關(guān)維護前提下,有必要建立一套針對信息化的監控平臺,做到及早發(fā)現故障、提早判斷預知故障并及時(shí)處理,以及合理利用信息化基礎資源,達到最大化資源使用,同時(shí)為信息化建設提供未來(lái)建設提供合理依據,使得信息化建設健康發(fā)展。
結合該產(chǎn)業(yè)園現有信息化建設架構,建設統一監控平臺部署內容如下:
1. 集中監控:包括從IT基礎架構到業(yè)務(wù)系統的可用性、性能、日志等指標監控;
2. 集中告警:集中告警展示、告警分發(fā)、告警處理等全生命周期管理;
3. 可視化視圖:可自動(dòng)發(fā)現的網(wǎng)絡(luò )拓撲、投屏視圖等可視化功能;
4. 多樣性報表:支持自定義、多維度、多指標報表統計功能;
5. 大屏展示:大屏幕集中監控實(shí)現自定義展示頁(yè)面。
三、實(shí)施過(guò)程
該項目主要監控網(wǎng)絡(luò )設備,基于網(wǎng)絡(luò )拓撲圖實(shí)現核心鏈路的集中監控。
1、監控對象搜集
前期監控對象搜集,通過(guò)和客戶(hù)交流、溝通,搜集相關(guān)需求及本次需要納入監控的相關(guān)對象。
主機系統:IP地址,系統類(lèi)型、業(yè)務(wù)名稱(chēng)等。
網(wǎng)絡(luò )設備:設備名稱(chēng)、設備類(lèi)型、設備團體名、管理IP。
2、制定實(shí)施計劃
完成相關(guān)對象搜集后,結合本次監控對象的數量、類(lèi)型、監控頻度,綜合判定本次架構設計,制定詳細實(shí)施計劃。
底層架構設計
該產(chǎn)業(yè)園本次監控對象為網(wǎng)絡(luò )設備30臺。本次系統架構說(shuō)明:本次監控通過(guò)虛擬化平臺進(jìn)行監控系統部署,基于虛擬化平臺的故障遷移策略保障監控系統的可用性,部署在一臺服務(wù)器上,采用單機部署,主要進(jìn)行交換機設備監控并實(shí)現所需監控告警及大屏展示功能。
3、監控對象管理
完成監控系統部署后,根據搜集表進(jìn)行分批次添加監控對象。
①操作系統:結合現場(chǎng)部署環(huán)境、調整好安裝腳本,配置好serverIP地址。
②網(wǎng)絡(luò )設備:根據搜集的產(chǎn)業(yè)園網(wǎng)絡(luò )設備信息發(fā)現其主要為華為交換機設備,與現有監控模匹配后,結合前期信息搜集時(shí)的管理IP地址、團體名,實(shí)現快速添加監控對象。
③告警配置:完成監控對象納管后,通過(guò)和客戶(hù)溝通、培訓,進(jìn)一步確認相關(guān)監控閾值配置,即根據客戶(hù)實(shí)際情況配置告警閾值,當監控指標達到閾值設置后,即觸發(fā)告警。同時(shí)將不同閾值對應到不同告警級別,分別為嚴重、一般、次要這幾個(gè)常用級別。
④大屏配置:投屏展示通??芍庇^(guān)、簡(jiǎn)潔地查看整個(gè)IT資源或某個(gè)業(yè)務(wù)的實(shí)際情況,經(jīng)過(guò)和客戶(hù)交流溝通后,確定本次創(chuàng )建的投屏展示。
四、方案價(jià)值
1、統一監控
實(shí)現信息化基礎資源全覆蓋監控,保障了監控自動(dòng)化管理,通過(guò)設置配置即可達到相關(guān)調整。降低人工成本,使運維人員去做對業(yè)務(wù)更有價(jià)值的工作。
2、告警管理
運維人員可查看最近6小時(shí)、最近12小時(shí)及最近24小時(shí)告警,可了解整個(gè)資源運行狀況,避免信息化資源出現告警隱患而人員未關(guān)注到時(shí)告警遺漏,更加準確的反饋了整體健康狀況,分別從不同等級、告警事件、告警時(shí)長(cháng)直觀(guān)的呈現,讓運維人員心中有數。
集中告警功能包含了實(shí)時(shí)告警、全部告警、告警統計等多個(gè)維度,匹配運維人員使用習慣,做到告警無(wú)遺漏、告警分等級,告警可追溯。從整體上減輕了運維人員工作,且真正做到7* 24小時(shí)實(shí)時(shí)監控,為運維管理工作代理了直觀(guān)的價(jià)值。
3、可視化管理
運維管理通常需要直觀(guān)呈現,重點(diǎn)關(guān)注的對象,通過(guò)配置網(wǎng)絡(luò )拓撲、業(yè)務(wù)拓撲,并通過(guò)投屏配置方式呈現,及時(shí)反映重點(diǎn)關(guān)注的如網(wǎng)絡(luò )健康狀況、專(zhuān)線(xiàn)鏈路狀況等。當出現異常時(shí),可快速定位故障,大大縮短故障定位、排查時(shí)間,為解決故障提供了有效依據,將前端業(yè)務(wù)影響降至最低,為整個(gè)運維工作帶來(lái)了最大的便利。
4、報表管理
運維工作除了對日常信息化健康運行關(guān)注外,還需要對整體資源使用情況做到合理分配,當資源需要進(jìn)行調整時(shí),可有效進(jìn)行整改、達到資源最大化利用率。也可為單個(gè)業(yè)務(wù)系統創(chuàng )建報表,提供日報、周報,展現趨勢數據提供性能分析。
另外,對于整個(gè)信息化基礎架構運行狀況,也可通過(guò)報表的告警統計,不同維度查看告警統計,操作系統告警統計、網(wǎng)絡(luò )設備告警統計,以不同類(lèi)別、不同等級分別展示,為信息化建設可持續發(fā)展提供了有效幫助。
運維管理平臺的利用云計算、大數據、物聯(lián)網(wǎng)、可視化等技術(shù)手段,實(shí)現了對園區設施設備的智能化管理和優(yōu)化運維,提高了園區運維管理的效率和質(zhì)量,降低了設備故障率和維修成本,優(yōu)化了能源利用效率,并提升了園區的安全性。
友情提示:
如您未能在本網(wǎng)站獲取您想要的產(chǎn)品及解決方案,請咨詢(xún)我們客服人員。借助訊維產(chǎn)品、應用方案,您可以獲得比其他公司更全面、更有效的方式來(lái)協(xié)助和管理您的工程,并降低工程中重復建設及品質(zhì)的風(fēng)險。 我們始終將客戶(hù)滿(mǎn)意度放在首位。與訊維的每次接觸,都能讓您對我們的服務(wù)、支持和解決方案充滿(mǎn)信心。
方案定制熱線(xiàn):400-6269-808 15928553700(24小時(shí))