制定混合云中的HPC戰(zhàn)略,應(yīng)該怎么做?
如今,云計算幾乎已成為所有企業(yè)基本的IT基礎(chǔ)設(shè)施戰(zhàn)略。去年Gartner預(yù)測,基礎(chǔ)設(shè)施即服務(wù)(IaaS)的需求將增加36.8%。另外一家咨詢公司在2018年的云調(diào)查顯示,95%的企業(yè)都制定了云策略,其中51%采用混合云策略。
本文引用地址:http://www.ex-cimer.com/article/201805/379739.htm然而,盡管云已經(jīng)普遍存在,且HPC在云中已經(jīng)十多年——2008年Univa在AWS上委托了第一個HPC集群——但企業(yè)一直不愿將HPC工作負(fù)載放在云計算中。對于數(shù)據(jù)安全性和缺乏相應(yīng)技術(shù)的擔(dān)憂,已經(jīng)超過了降低管理成本和避免硬件所有權(quán)的好處。
只有在過去的一年里,我們才真正達(dá)到了一個臨界點。一項客戶調(diào)查顯示,2017年企業(yè)對HPC云的興趣和使用量增加了10倍。隨著與云計算相關(guān)挑戰(zhàn)的減少,這些企業(yè)都看到了采用混合云策略的經(jīng)濟(jì)和商業(yè)性機(jī)會。在公有云中,他們可以在不影響CAPEX的情況下使用像Nvidia GPU這樣的專用硬件,也可以擴(kuò)展計算量繁重的工作負(fù)載,如通常會影響其他集群的TensorFlow機(jī)器學(xué)習(xí)模型。而且在混合模式下,他們還可以在不犧牲現(xiàn)有投資的情況下實現(xiàn)這些目標(biāo)。
混合云已經(jīng)成為HPC的重要競爭戰(zhàn)略。但是何從開始呢?
混合云戰(zhàn)略
在HPC領(lǐng)域,大多數(shù)公司都開始利用云來擴(kuò)大現(xiàn)有資源。這樣做可以最大化當(dāng)前的投資,并提供一種方法來簡化新的云基礎(chǔ)架構(gòu)模型。然而,這也有可能加劇現(xiàn)有復(fù)雜性。如果企業(yè)不能很好地了解他們現(xiàn)有的基礎(chǔ)設(shè)施是如何使用的,那么就不可能知道云服務(wù)的增加是否會給他們帶來真正需要的結(jié)果。因此,在引入新的云資源之前,他們應(yīng)該盡可能地合并筒倉式的封閉工作負(fù)載,并確保有合適的工具,可以讓自己看到使用模式和優(yōu)化資源。
如此一來,企業(yè)就可以將公有云資源引入他們現(xiàn)有的工作流程中。大多數(shù)公司開始這種過渡時只遷入一些少量工作負(fù)載,然后再有序進(jìn)行增加。在開始時采用以下策略,并在增加公有云投資時對其進(jìn)行微調(diào),或許會幫助你實現(xiàn)無縫過渡:
·策略自動化對于混合云環(huán)境和HPC來說是至關(guān)重要的。有HPC工作負(fù)載的公司很可能已經(jīng)意識到了有正確的策略管理工具的好處,而且應(yīng)該考慮制定一些能夠幫助他們最大化使用混合云資源的策略。他們可以通過制定策略來提高吞吐量,這些策略可以自動地確定哪些工作負(fù)載在本地運行,而不是在云中,也可以根據(jù)工作負(fù)載指標(biāo)和歷史記錄來可靠地進(jìn)行監(jiān)視、響應(yīng)和做出決策。例如,可以將一個策略設(shè)置為,向某個等待資源過久的任務(wù)分配一個云實例,或者自動終止未使用的云實例。
·云爆發(fā)(一個應(yīng)用部署模式,其應(yīng)用運行在私有云或數(shù)據(jù)中心中,當(dāng)計算能力的需求達(dá)到頂峰時突然進(jìn)入公有云中。)可以用來調(diào)整公司的產(chǎn)能以適應(yīng)需求,極大地加快計算速度,并從對其他集群的影響中不斷要求HPC工作負(fù)載。組織應(yīng)該注意將云爆發(fā)功能綁定到工作負(fù)載管理層,而不是應(yīng)用程序或基礎(chǔ)架構(gòu)層。這讓HPC云管理軟件根據(jù)公司更廣泛的基礎(chǔ)設(shè)施的需求來決定何時提供服務(wù)器實例、階段數(shù)據(jù)和拆除資源。當(dāng)能夠有效地使用時,云爆發(fā)將使硬件預(yù)算決策具有靈活性,同時幫助組織以更快的速度前進(jìn)。
·最終用戶應(yīng)該能夠使用他們已經(jīng)知道且信任的方法與云基礎(chǔ)設(shè)施進(jìn)行交互。如果一個組織在采用云計算時突然改變了他們的流水線和提交方法,他們不可避免地會出現(xiàn)錯誤和延遲。相反,他們應(yīng)該保留現(xiàn)有的工作流和與之相關(guān)的調(diào)度器,無論它們是簡單的步驟,如“qsub”提交單個任務(wù)——還是像環(huán)境設(shè)置一樣復(fù)雜的流程,觀察工作狀態(tài)、數(shù)據(jù)移動,或者是一個從任務(wù)到任務(wù)的序列。
·最后,要帶上你自己的映像。使用相同的機(jī)器映像有助于使應(yīng)用程序在本地和基于云的節(jié)點之間移植。公司應(yīng)該使用他們自己的云供應(yīng)軟件定制映像,而不是用每個供應(yīng)商特有的VM映像。
擁抱混合云
混合云是公有云服務(wù)提供商和HPC用戶的勝利,而我們還只是處于這個巨大改變的開始。HPC往往有數(shù)百萬臺服務(wù)器,每年有數(shù)十億的計算時間。隨著公司將這些工作負(fù)載轉(zhuǎn)移到云上,它們將影響公有云服務(wù)的質(zhì)量和IaaS市場的現(xiàn)狀。公有云提供商提供的安全性、GPU和機(jī)器學(xué)習(xí)服務(wù)將繼續(xù)改進(jìn),吸引越來越多的企業(yè)用戶,并鞏固混合云中的HPC架構(gòu)。
評論