為應(yīng)對(duì)現(xiàn)代超級(jí)計(jì)算機(jī)存儲(chǔ)子系統(tǒng)的復(fù)雜結(jié)構(gòu)帶來(lái)的冗長(zhǎng)I/O 路徑、資源競(jìng)爭(zhēng)、應(yīng)用性能低下等問(wèn)題,國(guó)家超級(jí)計(jì)算無(wú)錫中心自主研發(fā)了I/O性能監(jiān)控與分析診斷系統(tǒng)(簡(jiǎn)稱Beacon)。Beacon 通過(guò)輕量級(jí)高可擴(kuò)展的采集架構(gòu)采集超級(jí)計(jì)算機(jī)的全機(jī)全路徑的信息,運(yùn)用大數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等方法,實(shí)現(xiàn)了實(shí)時(shí)定位超級(jí)計(jì)算機(jī)的熱點(diǎn)問(wèn)題如:應(yīng)用間沖突干擾、系統(tǒng)降級(jí)、系統(tǒng)配置錯(cuò)誤等,并提出了多種解決方案。
目前,該系統(tǒng)已應(yīng)用到了曙光“派”集群、“神威?太湖之光”和神威新一代超級(jí)計(jì)算機(jī)上,為用戶和管理員監(jiān)測(cè)應(yīng)用和系統(tǒng)I/O性能、解決I/O問(wèn)題熱點(diǎn)帶來(lái)了諸多便利,幫助解決了上百個(gè)問(wèn)題,服務(wù)了數(shù)百個(gè)應(yīng)用,累計(jì)節(jié)省了數(shù)億核時(shí)。
測(cè)-cdb5df14a9014211bf721c02a3f849e2.png)
測(cè)2-052f707eb6174bfb901db23346f15b11.png)