采集間隔
定義了采集的頻率,gmond按照這個(gè)頻率對(duì)某項(xiàng)數(shù)據(jù)進(jìn)行采集和處理。對(duì)某些常量數(shù)據(jù),如機(jī)器CPU的核數(shù),只采集一次。
值閾值
定義采集值和上次報(bào)告的值之間的絕對(duì)值差(absolute difference),只有值的顯著變化才會(huì)引發(fā)一條消息。
時(shí)間閾值
該閾值定義了兩次報(bào)告測(cè)量值之間的最大時(shí)間間隔,而不管測(cè)量數(shù)據(jù)的值具體是多少。這個(gè)閾值是解決UDP的不可靠性的一種變通方案,提供了一種計(jì)算值的年齡的手段,如果自從我們上次收到報(bào)告以來(lái),已經(jīng)過(guò)去了一次或幾次該國(guó)值的時(shí)間,則認(rèn)為我們的當(dāng)前測(cè)量值是過(guò)時(shí)的。
從高層來(lái)看,gmond對(duì)其監(jiān)測(cè)的測(cè)量數(shù)據(jù)遵從下列步驟:
1.采集當(dāng)前的測(cè)量數(shù)據(jù)值。
2.如果當(dāng)前值和上次報(bào)告的值的絕對(duì)值差大于指定的值閾值,轉(zhuǎn)步驟5。3.如果當(dāng)前時(shí)間超過(guò)了發(fā)送測(cè)量數(shù)據(jù)的硬限制(hard limit),轉(zhuǎn)步驟5。
4.轉(zhuǎn)步驟7。
5.發(fā)送測(cè)量數(shù)據(jù)的值,并保存用于下次比較(在步驟2中)。
6.把時(shí)間閾值加到當(dāng)前時(shí)間上,作為下次發(fā)送測(cè)量數(shù)據(jù)的硬限制。
7.進(jìn)人睡眠,時(shí)長(zhǎng)為采集間隔。
8.轉(zhuǎn)步驟1。
這種方式使得gmond只在測(cè)量數(shù)據(jù)發(fā)生顯著變化時(shí)才發(fā)送消息,而且,前述的計(jì)算也加上了一個(gè)隨機(jī)值,以減少網(wǎng)絡(luò)爭(zhēng)用。最后,對(duì)于數(shù)千臺(tái)機(jī)器,測(cè)量數(shù)據(jù)的采集與發(fā)送要協(xié)調(diào)進(jìn)行。
對(duì)降低測(cè)量數(shù)據(jù)采集的成本同樣重要的是,將成本固定下來(lái)。最壞情況下,每次采集間隔的每次采集都發(fā)送一條消息,最好情況下,消息僅在指定的時(shí)間閾值過(guò)去之后發(fā)送。這個(gè)范圍使你能夠?qū)y(cè)量數(shù)據(jù)采集建立一個(gè)固定的成本預(yù)算,當(dāng)然,除非閾值有問(wèn)題。
對(duì)于網(wǎng)絡(luò)測(cè)量數(shù)據(jù),要小心選擇值國(guó)值。我在第一次把網(wǎng)絡(luò)測(cè)量數(shù)據(jù)采集加到Ganglia上時(shí),把默認(rèn)的采集間隔設(shè)置得太短,值閾值也設(shè)置得太小,在我的筆記本電腦上沒(méi)有注意到這種配置錯(cuò)誤,在將Ganglia部署到大量的集群上的時(shí)候,這種錯(cuò)誤就非常明顯了。每個(gè)節(jié)點(diǎn)都開(kāi)始發(fā)送網(wǎng)絡(luò)測(cè)量數(shù)據(jù)更新,以響應(yīng)其他節(jié)點(diǎn)的發(fā)送,Ganglia導(dǎo)致了一場(chǎng)巨大的網(wǎng)絡(luò)風(fēng)暴。希望你不會(huì)發(fā)生這種尷尬的事情。
Ganglial應(yīng)有而沒(méi)有的一個(gè)功能是測(cè)量數(shù)據(jù)的批量處理。你要是自己寫(xiě)測(cè)量數(shù)據(jù)采集系統(tǒng),記住要支持這個(gè)功能。將測(cè)測(cè)量數(shù)據(jù)收集起來(lái)批量發(fā)送,既減少了發(fā)送的網(wǎng)絡(luò)包數(shù),也減少了帶寬占用。例如,你發(fā)送的每個(gè)IPv4UDP包都包含一個(gè)14字節(jié)的以太網(wǎng)頭部、一個(gè)20字節(jié)的P頭部、一個(gè)8字節(jié)的UDP頭部和一個(gè)4字節(jié)的以太網(wǎng)尾部。實(shí)際上這些數(shù)字還沒(méi)考慮如填充、VLAN、IP選項(xiàng)、IPv6的差異等因素,但我們可以用這些數(shù)字做一個(gè)大概的計(jì)算。假設(shè)你發(fā)送的數(shù)據(jù)是32字節(jié),發(fā)送10次更新,則需要10個(gè)78字節(jié)的包,總計(jì)780字節(jié)。批量發(fā)送的話(huà),則只需要1個(gè)366字節(jié)的包,其中320字節(jié)用于測(cè)量數(shù)據(jù)。這個(gè)例子中,批量發(fā)送減少了90%的包,帶寬減少了一半以上。批量發(fā)送的缺點(diǎn)是,一旦包丟失匯集與組織測(cè)量數(shù)據(jù)將會(huì)丟失多個(gè)數(shù)據(jù),而不是一個(gè)。
如果一項(xiàng)測(cè)量數(shù)據(jù)對(duì)于一臺(tái)機(jī)器是有價(jià)值的,則可能對(duì)所有機(jī)器都有價(jià)值,這一點(diǎn)對(duì)系統(tǒng)測(cè)量數(shù)據(jù)而言是對(duì)的,但對(duì)于應(yīng)用而言則不一定對(duì)。如,采集 MYSQL的測(cè)量數(shù)據(jù),只對(duì)運(yùn)行數(shù)據(jù)庫(kù)的機(jī)器才有意義。但是,每分鐘的負(fù)荷,則對(duì)于不論運(yùn)行什么應(yīng)用的機(jī)器而言,都是有意義的。
Ganglia元數(shù)據(jù)進(jìn)程(gmetad)采集、匯集、存儲(chǔ)一組機(jī)器的測(cè)量數(shù)據(jù),這種匯總數(shù)據(jù)將通過(guò)數(shù)據(jù)采集的層次結(jié)構(gòu),傳遞給上游的gmetad。這種層次結(jié)構(gòu)的代理模式能夠創(chuàng)建很大的非中心化的測(cè)量數(shù)據(jù)采集重疊,這些重疊可以跨越一座校園或整個(gè)地球。
作為一個(gè)極端的例子,設(shè)想將美國(guó)的每臺(tái)機(jī)器都連到一個(gè)大的測(cè)量數(shù)據(jù)采集重疊上,我們將有一個(gè)國(guó)家級(jí)的gmetad,這個(gè)gmetad從運(yùn)行在每個(gè)州的50個(gè)授權(quán)gmetad中獲取數(shù)據(jù),每個(gè)州的gmetad從每個(gè)縣級(jí)的gmetad中收集數(shù)據(jù),而每個(gè)縣級(jí)的gmetad從每個(gè)市級(jí)的gmetad中收集數(shù)據(jù),等等。
這個(gè)例子中的根節(jié)點(diǎn)不會(huì)被美國(guó)的每臺(tái)機(jī)器中的所有測(cè)量數(shù)據(jù)壓垮,它只從每個(gè)州州獲取匯總數(shù)據(jù),然后生成全美國(guó)的匯總數(shù)據(jù)。所以,對(duì)于將50個(gè)數(shù)加在一起這樣的運(yùn)算,是不需要很強(qiáng)大的計(jì)算能力的。
Ganglia的Web前端通常安裝在運(yùn)行g(shù)retai的機(jī)器上上,Web前端將gmetad的數(shù)據(jù)進(jìn)行可視化,你可以直觀(guān)地測(cè)覽,并在測(cè)量數(shù)據(jù)采集重疊中進(jìn)行導(dǎo)航。例如,你可以通過(guò)根節(jié)點(diǎn)的gmetad查看全美國(guó)的匯總信息,以及每個(gè)州的數(shù)據(jù)源,然后在圖上點(diǎn)擊伊利諾伊州,進(jìn)入感興趣的數(shù)據(jù)。這種樹(shù)狀的測(cè)量數(shù)據(jù)值屬于空間組件,除此之外,還有時(shí)間組件。伊利諾伊州的Web前端,查看詳細(xì)信息。 Ganglia:還讓你可對(duì)圖片進(jìn)行放大和縮小,以找到Gmetad:將測(cè)量數(shù)據(jù)存儲(chǔ)于RD數(shù)據(jù)庫(kù)中,RRD數(shù)據(jù)庫(kù)用于存儲(chǔ)數(shù)值數(shù)據(jù)并生成歷史報(bào)表。RD一個(gè)非常有用的特點(diǎn)是體積并不隨著時(shí)間的增長(zhǎng)而增長(zhǎng)。RRD的每個(gè)內(nèi)部檔案庫(kù)( archive)都有固定數(shù)量的“桶”,新數(shù)據(jù)到來(lái)后,更新所有相關(guān)的檔案庫(kù),并丟棄陳舊的數(shù)據(jù)。對(duì)于一個(gè)簡(jiǎn)化的例子,你可以用24個(gè)桶對(duì)應(yīng)于一天的24小時(shí),另外的7個(gè)桶對(duì)應(yīng)于一周的7天。要在不同時(shí)期中發(fā)現(xiàn)數(shù)據(jù)的趨勢(shì),RRD是一個(gè)理想的工具。將日時(shí)序數(shù)據(jù)和前述的層次代理模式結(jié)合起來(lái),可以用于回答這樣的問(wèn)題:“對(duì)于全美國(guó)來(lái)說(shuō),過(guò)去一年CPU的利用率是一個(gè)什么樣的趨勢(shì)?”
盡管我希望如此, Ganglia卻從來(lái)沒(méi)有這樣大范圍地部署過(guò)。一個(gè)更為實(shí)際的例子是像Grid3群組這樣的,2003年使用 Ganglia,從數(shù)千臺(tái)機(jī)器中采集測(cè)量數(shù)據(jù),這些機(jī)器分布在美國(guó)和韓國(guó)的幾十個(gè)站點(diǎn),用于高等物理研究。這些為Grid3采集的測(cè)量數(shù)據(jù)嵌人其他系統(tǒng),如 Globus,讓人們分享計(jì)算資源進(jìn)行物理實(shí)驗(yàn)。
從大量機(jī)器中匯集不同時(shí)期的數(shù)據(jù),對(duì)于容量規(guī)劃也很有用。了解單臺(tái)機(jī)器的CPU利用率為80%是有用的,但知道整個(gè)網(wǎng)站建設(shè)集群上個(gè)月的利用率為80%卻更有價(jià)值。能夠看到這種種“宏觀(guān)圖景”,對(duì)于計(jì)劃硬件采購(gòu)、發(fā)現(xiàn)處理流水線(xiàn)中的瓶頸、洞察Web運(yùn)維的動(dòng)態(tài),都是非常有幫助的。
本文地址:http://jiujiu9.com//article/3314.html