Linux日志文件系統(tǒng)及性能分析(組圖)
日志文件系統(tǒng)可以在系統(tǒng)發(fā)生斷電或者其它系統(tǒng)故障時(shí)保證整體數(shù)據(jù)的完整性,Linux是目前支持日志文件系統(tǒng)最多的操作系統(tǒng)之一,本文重點(diǎn)研究了Linux常用的日志文件系統(tǒng):EXT3、ReiserFS、XFS和JFS日志技術(shù),并采用標(biāo)準(zhǔn)的測試工具PostMark和 Bonnie++對它們進(jìn)行了測試,給出了詳細(xì)的性能分析,對Linux服務(wù)器應(yīng)用具有重要的參考價(jià)值。
本文引用地址:http://www.ex-cimer.com/article/201610/305405.htm一、概述
所謂日志文件系統(tǒng)是在傳統(tǒng)文件系統(tǒng)的基礎(chǔ)上,加入文件系統(tǒng)更改的日志記錄,它的設(shè)計(jì)思想是:跟蹤記錄文件系統(tǒng)的變化,并將變化內(nèi)容記錄入日志。日志文件系統(tǒng)在磁盤分區(qū)中保存有日志記錄,寫操作首先是對記錄文件進(jìn)行操作,若整個(gè)寫操作由于某種原因(如系統(tǒng)掉電)而中斷,系統(tǒng)重啟時(shí),會(huì)根據(jù)日志記錄來恢復(fù)中斷前的寫操作。在日志文件系統(tǒng)中,所有的文件系統(tǒng)的變化都被記錄到日志,每隔一定時(shí)間,文件系統(tǒng)會(huì)將更新后的元數(shù)據(jù)及文件內(nèi)容寫入磁盤。在對元數(shù)據(jù)做任何改變以前,文件系統(tǒng)驅(qū)動(dòng)程序會(huì)向日志中寫入一個(gè)條目,這個(gè)條目描述了它將要做些什么,然后它修改元數(shù)據(jù)。目前Linux的日志文件系統(tǒng)主要有:在Ext2基礎(chǔ)上開發(fā)的Ext3,根據(jù)面向?qū)ο笏枷朐O(shè)計(jì)的ReiserFS,由SGI IRIX系統(tǒng)移植過來的XFS,由IBM AIX系統(tǒng)移植過來的JFS,其中EXT3完全兼容EXT2,其磁盤結(jié)構(gòu)和EXT2完全一樣,只是加入日志技術(shù);而后三種文件系統(tǒng)廣泛使用了B樹以提高文件系統(tǒng)的效率。
二、Ext3
Ext3 文件系統(tǒng)是直接從Ext2文件系統(tǒng)發(fā)展而來,目前Ext3文件系統(tǒng)已經(jīng)非常穩(wěn)定可靠,它完全兼容Ext2文件系統(tǒng),用戶可以平滑地過渡到一個(gè)日志功能健全的文件系統(tǒng)。Ext3日志文件系統(tǒng)的思想就是對文件系統(tǒng)進(jìn)行的任何高級(jí)修改都分兩步進(jìn)行。首先,把待寫塊的一個(gè)副本存放在日志中;其次,當(dāng)發(fā)往日志的 I/O 數(shù)據(jù)傳送完成時(shí)(即數(shù)據(jù)提交到日志),塊就寫入文件系統(tǒng)。當(dāng)發(fā)往文件系統(tǒng)的I/O 數(shù)據(jù)傳送終止時(shí)(即數(shù)據(jù)提交給文件系統(tǒng)),日志中的塊副本就被丟棄。
2.1 Ext3日志模式
Ext3既可以只對元數(shù)據(jù)做日志,也可以同時(shí)對文件數(shù)據(jù)塊做日志。具體來說,Ext3提供以下三種日志模式:
日志(Journal )
文件系統(tǒng)所有數(shù)據(jù)和元數(shù)據(jù)的改變都記入日志。這種模式減少了丟失每個(gè)文件所作修改的機(jī)會(huì),但是它需要很多額外的磁盤訪問。例如,當(dāng)一個(gè)新文件被創(chuàng)建時(shí),它的所有數(shù)據(jù)塊都必須復(fù)制一份作為日志記錄。這是最安全和最慢的Ext3日志模式。
預(yù)定(Ordered )
只有對文件系統(tǒng)元數(shù)據(jù)的改變才記入日志。然而,Ext3文件系統(tǒng)把元數(shù)據(jù)和相關(guān)的數(shù)據(jù)塊進(jìn)行分組,以便把元數(shù)據(jù)寫入磁盤之前寫入數(shù)據(jù)塊。這樣,就可以減少文件內(nèi)數(shù)據(jù)損壞的機(jī)會(huì);例如,確保增大文件的任何寫訪問都完全受日志的保護(hù)。這是缺省的Ext3 日志模式。
寫回(Writeback )
只有對文件系統(tǒng)元數(shù)據(jù)的改變才記入日志;這是在其他日志文件系統(tǒng)發(fā)現(xiàn)的方法,也是最快的模式。
2.2 日志塊設(shè)備(JBD)
Ext3 文件系統(tǒng)本身不處理日志,而是利用日志塊設(shè)備(Journaling Block Device)或叫JBD 的通用內(nèi)核層。Ext3文件系統(tǒng)調(diào)用JDB例程以確保在系統(tǒng)萬一出現(xiàn)故障時(shí)它的后續(xù)操作不會(huì)損壞磁盤數(shù)據(jù)結(jié)構(gòu)。Ext3 與JDB 之間的交互本質(zhì)上基于三個(gè)基本單元:日志記錄,原子操作和事務(wù)。
日志記錄本質(zhì)上是文件系統(tǒng)將要發(fā)出的低級(jí)操作的描述。在某些日志文件系統(tǒng)中,日志記錄只包括操作所修改的字節(jié)范圍及字節(jié)在文件系統(tǒng)中的起始位置。然而,JDB 層使用的日志記錄由低級(jí)操作所修改的整個(gè)緩沖區(qū)組成。這種方式可能浪費(fèi)很多日志空間(例如,當(dāng)?shù)图?jí)操作僅僅改變位圖的一個(gè)位時(shí)),但是,它還是相當(dāng)快的,因?yàn)镴BD 層直接對緩沖區(qū)和緩沖區(qū)首部進(jìn)行操作。
修改文件系統(tǒng)的任一系統(tǒng)調(diào)用都通常劃分為操縱磁盤數(shù)據(jù)結(jié)構(gòu)的一系列低級(jí)操作。如果這些低級(jí)操作還沒有全部完成系統(tǒng)就意外宕機(jī),就會(huì)損壞磁盤數(shù)據(jù)。為了防止數(shù)據(jù)損壞,Ext3文件系統(tǒng)必須確保每個(gè)系統(tǒng)調(diào)用以原子的方式進(jìn)行處理。原子操作是對磁盤數(shù)據(jù)結(jié)構(gòu)的一組低級(jí)操作,這組低級(jí)操作對應(yīng)一個(gè)單獨(dú)的高級(jí)操作。
出于效率的原因,JBD 層對日志的處理采用分組的方法,即把屬于幾個(gè)原子操作處理的日志記錄分組放在一個(gè)單獨(dú)的事務(wù)中。此外,與一個(gè)處理相關(guān)的所有日志記錄都必須包含在同一個(gè)事務(wù)中。一個(gè)事務(wù)的所有日志記錄都存放在日志的連續(xù)塊中。JBD層把每個(gè)事務(wù)作為整體來處理。例如,只有當(dāng)包含在一個(gè)事務(wù)的日志記錄中的所有數(shù)據(jù)提交給文件系統(tǒng)時(shí)才回收該事務(wù)所使用的塊。
三、ReiserFS
ReiserFS 是一個(gè)非常優(yōu)秀的文件系統(tǒng),其開發(fā)者非常有魄力,整個(gè)文件系統(tǒng)完全是從頭設(shè)計(jì)的。目前,ReiserFS可輕松管理上百G的文件系統(tǒng),這在企業(yè)級(jí)應(yīng)用中非常重要。ReiserFS 是根據(jù)面向?qū)ο蟮乃枷朐O(shè)計(jì)的,由語義層(semantic layer)和存儲(chǔ)層(storage layer)組成。語義層主要是對對象命名空間的管理及對象接口的定義,以確定對象的功能。存儲(chǔ)層主要是對磁盤空間的管理。語義層與存儲(chǔ)層是通過鍵(key)聯(lián)系的。語義層通過對對象名進(jìn)行解析生成鍵,存儲(chǔ)層通過鍵找到對象在磁盤上存儲(chǔ)空間,鍵值是全局唯一的。
3.1 語義層主要接口
1) 文件接口 每個(gè)文件擁有一個(gè)接口ID,此ID標(biāo)識(shí)一個(gè)方法集,此方法集包含訪問ReiserFS 文件的所有接口。
2) 屬性接口 ReiserFS實(shí)現(xiàn)了一種新接口,把文件的每一種屬性當(dāng)做一個(gè)文件,屬性的值就是此文件的內(nèi)容,以實(shí)現(xiàn)對文件屬性的目錄式訪問。
3) hash接口 目錄是文件名到文件的映射表,ReiserFS是通過B+樹來實(shí)現(xiàn)這張映射表。由于文件名是變長的,而且有時(shí)文件名會(huì)很長,所以文件名不適合作為鍵值,故引入了Hash函數(shù)來產(chǎn)生鍵值。
4) 安全接口 安全接口處理所有的安全性檢查,通常是由文件接口觸發(fā)的。下面以讀文件為例:文件接口的read 方法在讀入文件數(shù)據(jù)之前會(huì)調(diào)用安全接口的read chech 方法來來進(jìn)行安全性檢查,而后者又會(huì)調(diào)用屬性文件的read方法把文件屬性讀入以便檢查。
5) 項(xiàng)(Item)接口 項(xiàng)接口主要是一些對項(xiàng)進(jìn)行平衡處理的方法,包括:項(xiàng)的拆分,項(xiàng)的評(píng)估,項(xiàng)的覆寫,項(xiàng)的追加,項(xiàng)的刪除,插入及查找。
評(píng)論