精品福利视频一区二区三区,免费A级毛片无码无遮挡,偷窥目拍性综合图区,亚洲欧洲无码AV电影在线观看,超清无码熟妇人妻AV在线电影

認證培訓,h3c認證體系,網(wǎng)絡(luò )工程師
豐沃創(chuàng  )新

骨干網(wǎng)是如何煉成的?

  • 發(fā)布時(shí)間: 2018-2-6 9:52:03

骨干網(wǎng)(Internet Backbone Network)是連接國與國、城市與城市之間的高速互聯(lián)網(wǎng)絡(luò )。如下圖所示,它通過(guò)海纜和路纜,將分布在世界各地的數據中心連接起來(lái),是互聯(lián)網(wǎng)服務(wù)提供商和云計算服務(wù)提供商的重要基礎設施,肩負著(zhù)滿(mǎn)足全球范圍內網(wǎng)絡(luò )數據通信需求的重任。

全球骨干網(wǎng)示意圖

骨干網(wǎng)的角色如此重要,以至于與此有關(guān)的話(huà)題,常常會(huì )引起業(yè)界的關(guān)注和討論。作為云計算的基礎,國內的云計算服務(wù)提供商是如何運維自己的骨干網(wǎng)的?又是如何實(shí)現自動(dòng)化運維的?有哪些值得分享、思考的經(jīng)驗和做法?作為一名從業(yè)10年的網(wǎng)絡(luò )架構師,我向大家介紹一下金山云骨干網(wǎng)的現況,希望對大家有所幫助。

如何快速發(fā)現骨干網(wǎng)級別故障?

首先簡(jiǎn)要介紹一下建設進(jìn)展。金山云目前在北京和上海兩地之間租用專(zhuān)線(xiàn)搭建起了骨干網(wǎng)絡(luò ),按照計劃,今年金山云會(huì )在廣州部署節點(diǎn),將進(jìn)一步擴大環(huán)網(wǎng)規模,搭建北上廣骨干環(huán)網(wǎng),大幅提升金山云公有云服務(wù)的網(wǎng)絡(luò )質(zhì)量SLA。

當然,這并不是說(shuō)建設骨干環(huán)網(wǎng)后就不會(huì )出故障了,對于互聯(lián)網(wǎng)公司和云計算服務(wù)商來(lái)說(shuō),運營(yíng)商的骨干網(wǎng)絡(luò )故障是很讓人頭痛的,因為在通常情況下,這種故障會(huì )影響到多個(gè)省份用戶(hù)網(wǎng)絡(luò )的訪(fǎng)問(wèn)質(zhì)量。

例如,2016年11月19日晚8點(diǎn),包括華南、西南、華中等在內的國內多個(gè)地區,超過(guò)10個(gè)省份的用戶(hù),在訪(fǎng)問(wèn)華北地區的服務(wù)節點(diǎn)時(shí),均出現了問(wèn)題。測試結果顯示,ICMP丟包率高達30%,延遲增大了約100ms,這種級別的丟包率和延遲情況,如果不及時(shí)處理,將導致用戶(hù)的業(yè)務(wù)嚴重受損。

那么,對于這種骨干網(wǎng)級別的故障,云服務(wù)商能否做到快速發(fā)現定位呢?當然是可以的。

金山云的做法是,通過(guò)自研開(kāi)源監控的方式,研發(fā)出服務(wù)于金山云整個(gè)骨干網(wǎng)的網(wǎng)絡(luò )質(zhì)量監控系統(Netbench)。

金山云網(wǎng)絡(luò )質(zhì)量監控系統監控圖

如上圖所示,金山云的這套系統支持多地區、多ISP監控,可在運營(yíng)商發(fā)生骨干網(wǎng)故障時(shí),快速發(fā)現并準確定位故障,同時(shí)采用電子地圖這種直觀(guān)形式,顯示出各省份各地級市的網(wǎng)絡(luò )質(zhì)量(延遲、丟包等數據),如果某地出現問(wèn)題,地圖上相應位置的顏色就會(huì )變得不同。

金山云網(wǎng)絡(luò )質(zhì)量監控系統架構圖

金山云這套網(wǎng)絡(luò )質(zhì)量監控系統的主要特點(diǎn),分為定位策略、主要功能、應用場(chǎng)景三部分:

一、定位策略

抓取訪(fǎng)問(wèn)客戶(hù)服務(wù)的用戶(hù)IP作為監控目的IP;

多對多的監控模式,多個(gè)源IP監控全國各個(gè)省市的用戶(hù)IP(保證數據的準確性避免路由ecmp不均勻的問(wèn)題);

通過(guò)對抓取到的IP進(jìn)行篩選,排除掉一些不準確的IP,最終篩選出每省份數百個(gè)有效IP進(jìn)行監控;

商用的IP地址庫與BGP IP結合對抓取到的IP進(jìn)行區分(ISP、省、市等);

Master-Slave的部署模式,監控周期可精確到分鐘級(每1分鐘)。

二、主要功能

提供短信、微信、郵件告警;

提供故障時(shí)的MTR數據(平均每省份多個(gè)MTR),可幫助判斷loss節點(diǎn);

提供柱狀圖、歷史數據展示等功能,可追溯故障,查看故障時(shí)的丟包以及延遲情況;

可針對重要的IP進(jìn)行指定監控。

三、應用場(chǎng)景

可覆蓋CDN、靜態(tài)、BGP等多網(wǎng)絡(luò )類(lèi)型;

目前可針對EIP(計算)、KS3(存儲)、KLS(視頻)等業(yè)務(wù)類(lèi)型進(jìn)行監控。

骨干網(wǎng)調度架構圖

如何快速解決骨干網(wǎng)級別故障?

對于骨干網(wǎng)級別的故障,除了需要快速發(fā)現,更需要快速解決。

有些互聯(lián)網(wǎng)和云計算服務(wù)提供商,會(huì )通過(guò)多線(xiàn)BGP切換故障ISP流量至其他的ISP的方式繞開(kāi)故障點(diǎn),由于我國南北互通問(wèn)題,跨網(wǎng)訪(fǎng)問(wèn)的質(zhì)量很差,丟包和延遲都無(wú)法保證,而且在跨網(wǎng)切換時(shí),會(huì )有較長(cháng)時(shí)間的路由收斂,導致客戶(hù)長(cháng)連接業(yè)務(wù)中斷。

金山云避免了這些問(wèn)題。因為金山云的自建骨干網(wǎng)絡(luò )擁有支持跨區域調度能力,當出現故障時(shí),能夠通過(guò)骨干網(wǎng)跨地區調度故障運營(yíng)商流量,這種調度只是在同ISP不同地區之間的調度,只增加地區間的延遲,對整體丟包并無(wú)影響,這樣一來(lái),整體服務(wù)質(zhì)量就得到了保障,同ISP內的路由切換收斂時(shí)間,可保證用戶(hù)無(wú)感知,在近幾次運營(yíng)商南北骨干網(wǎng)故障中,金山云均做到了故障的快速調度恢復,客戶(hù)也不必再因為運營(yíng)商骨干網(wǎng)的故障而頭疼了。

骨干網(wǎng)絡(luò )調度前后對比圖

這里解釋一下原因。金山云可以做到以省市為單位的出口切換級別,比如目標浙江省出現了故障,會(huì )優(yōu)先嘗試調度浙江省出向流量至正常地區節點(diǎn),在丟包恢復后將不會(huì )有下一步切換動(dòng)作,不會(huì )導致全國切換而加大其它省份的延遲,只有在多省份同時(shí)異常而且調度出向無(wú)效后才會(huì )切全局入向流量。當前已經(jīng)定義了一整套切換規則來(lái)判定什么情況下切換,什么情況下不切換。

骨干網(wǎng)運維自動(dòng)化

每當出現骨干網(wǎng)級別的故障時(shí),工程師很容易出現誤操作刷錯腳本等低級錯誤,導致業(yè)務(wù)受影響,故障處理速度上也得不到最有效的保障。

目前金山云上線(xiàn)的骨干網(wǎng)自動(dòng)化運維平臺,可實(shí)現對這種骨干網(wǎng)級別的故障的自動(dòng)化判斷和處理等一系列自動(dòng)化流程,減輕了工程師的壓力,它有著(zhù)如下特點(diǎn):

首先,Netbench提供判斷依據,給出當前網(wǎng)絡(luò )的質(zhì)量情況,作為自動(dòng)化腳本的觸發(fā)條件開(kāi)始進(jìn)入自動(dòng)化流程;

第二,通過(guò)Python腳本定義多個(gè)故障場(chǎng)景,當出現不同類(lèi)型的骨干網(wǎng)時(shí)可根據腳本庫調出對應的腳本;

第三,通過(guò)Netconf下發(fā)所需要調用的腳本策略配置到對應的核心網(wǎng)絡(luò )設備上;

第四,直接對接郵件系統,從Netbench調用MTR發(fā)送給ISP進(jìn)行自動(dòng)報障;

第五,對接微信、短信告警平臺,在故障時(shí)讓客戶(hù)能第一時(shí)間知道當前故障狀態(tài)以及故障的處理進(jìn)度。

自動(dòng)化調度架構圖

在兩三個(gè)Region級別的骨干網(wǎng)通過(guò)“人”計算還是可以實(shí)現最優(yōu)調度的,但是隨著(zhù)Region的增加,“人”計算的方式效率會(huì )越來(lái)越低,準確度也會(huì )越來(lái)越差,那么如何解決多Region骨干網(wǎng)調度呢?我總結出了幾種方法:

1、通過(guò)Netbench的MTR功能定時(shí)定點(diǎn)采集每Region到每ISP的數據,平均每省份保證10-20個(gè)IP即可(排除路由Ecmp hash不均的問(wèn)題);

2、對采集到的數據進(jìn)行分層分級,區分到運營(yíng)商層面的超核、核心、省市等,并在這些層級的IP上保留MTR當中的延遲值(運營(yíng)商的設備都會(huì )對ICMP有保護所以不采用丟包值);

3、通過(guò)腳本分析構建ISP的邏輯IP網(wǎng)絡(luò )拓撲圖;

4、在運營(yíng)商骨干網(wǎng)故障時(shí)能夠清晰的描述到是哪個(gè)層級哪個(gè)核心節點(diǎn)出現的問(wèn)題,能夠在拓撲上清晰地看到問(wèn)題所在;

5、在故障時(shí)可通過(guò)構建的邏輯IP拓撲計算出調度的最優(yōu)RTT路徑;

6、結合自動(dòng)化調度實(shí)現最優(yōu)調度。

隨著(zhù)客戶(hù)對網(wǎng)絡(luò )問(wèn)題的重視程度的增加,骨干網(wǎng)以及多Region骨干網(wǎng)結構已經(jīng)是現在的互聯(lián)網(wǎng)服務(wù)提供商和云計算服務(wù)提供商不可或缺的重要環(huán)節。越來(lái)越多的重網(wǎng)絡(luò )業(yè)務(wù)的出現,比如實(shí)施對戰類(lèi)的手機游戲、視頻直播等對網(wǎng)絡(luò )質(zhì)量要求非常高的業(yè)務(wù),不能一而再再而三地把我們所謂的SLA推到運營(yíng)商的層面,站在客戶(hù)業(yè)務(wù)的角度去考慮這是極其不負責任的態(tài)度,我們要在有限的網(wǎng)絡(luò )環(huán)境中盡可能把客戶(hù)的問(wèn)題合理解決,這樣客戶(hù)才能把重要的業(yè)務(wù)托付到你那里。

由于運營(yíng)、成本問(wèn)題、運維、網(wǎng)絡(luò )現狀受限等復雜的因素,金山云目前并沒(méi)有使用商用SDN的技術(shù)來(lái)實(shí)現骨干網(wǎng)自動(dòng)化,,而是通過(guò)實(shí)踐,使用了BGP、Python、GO等網(wǎng)絡(luò )協(xié)議以及腳本工具配合Netconf來(lái)實(shí)現對于金山云骨干網(wǎng)的自動(dòng)化。我希望通過(guò)介紹金山云在骨干網(wǎng)運維方面的思路,能給大家帶來(lái)一些啟發(fā)和幫助。

精品福利视频一区二区三区,免费A级毛片无码无遮挡,偷窥目拍性综合图区,亚洲欧洲无码AV电影在线观看,超清无码熟妇人妻AV在线电影