最新架構服務器用CPU性能對比測試
2006年的第一個季度,AMD系統達的收入超過10億美元,占到了整個x86服務器市場的1/6。僅僅是在短短的一年之內,Opteron處理器的市場份額就從去年的6%增長到了今年的15%。在四路服務器中,Opteron占到了美國市場份額中的48%,而去年還只有23%。更為重要的是,這并不是一件“US only”事件,同樣是在全球四路服務器市場,在過去的四年時間里,AMD的市場份額增長了36%。AMD已經成為了服務器CPU市場上的標志。
而一直受到英特爾的Xeon、Itanium處理器壓迫的Sun也終于在去年展現了一點復蘇的跡象。其UltraSparc IV+處理器具備了一條快速的、整合的L2緩存和大數據量的L3緩存為Sun挽留了很大一部分傳統的Sparc處理器用戶,設計優(yōu)良的GALAXY Opteron服務器系統,以及用來沖擊中端x86市場的UltraSparc T1都在市場中取得了不俗的表現。
對英特爾來說,是時候做出自己應有的回應了,是到了應該在服務器用處理器方面做出點什么的時候了。而英特爾給出的答案就是Core核心的Xeon:Woodcrest。記憶體資料相依性預測功能(Memory DisaMBIguATIon),大容量無序緩存以及大容量低潛伏期的共享L2緩存都使得Core架構在服務器任務中顯得要比其他x86處理器更有效率。
本文的重點就是向用戶對基于Woodcrest和其競爭對手:AMD Opteron和UltraSparc T1處理器的幾種不同服務器進行一次性能上的比較。
英特爾最新的Bensley平臺的一個最大優(yōu)勢就是優(yōu)秀的兼容性:Dempsey、Woodcrest和四核心的Clovertown Xeon都使用了相同的插槽和平臺。
通過為每顆CPU分配一個獨立的1333MHz總線,Bensley在設計中省去了共享Xeon總線。這和老的Athlon MP平臺非常相像,同時這也使得Blackford北橋、MCH的設計更加復雜。Blackford同樣提供了4個內存通道和24個PCIE lanes。
由于只是部分HPC程序受到了FSB帶寬的限制,DIB(Dual Independent Bus)并不會為Woodcrest和Dempsey帶來任何差別。多年的測試經驗告訴我們大多數服務器和工作站程序并不會因為FSB速度而帶來瓶頸。得益于NUMA的設計,在雙核心和四核心架構中,Opteron平臺不會發(fā)生太大的波動。在大多數的程序中,低延遲的整合內存控制器的影響要超過了FSB/NUMA帶寬。當然,對于Clovertown或者2個Woodcrest核心整合的處理器來說,一個標準的FSB有可能會成為瓶頸,在那種情況下,DIB會是一個不錯的選擇。
Blackford的最大改進應該是fully Buffered DIMMs(FB-DIMMs)的引入。在在FB-DIMms PCB上,我們仍能發(fā)現并行DDR-2內存,不過高級內存緩沖器(AMB)則將這個并行數據流變成了一個連續(xù)的數據流向Blackford芯片轉移。在內存子系統和芯片中的連續(xù)連接不僅排除了不對稱問題同時也大大簡化了主板的喚醒功能。喚起四通道的DDR-2內存無疑將成為一件可怕的事。
我們在Sun T2000中采用的是Solaris10操作系統。而目前能夠在T2000上使用的操作系統也只有Solaris 10 3/05/ HW2。T1和現在的SPARC體系可以做到二進制兼容,不過必須是這個版本的Solaris。
下面是幾款不同的服務器指標:
Sun T2000
Sun UltraSparc T1 1 GHz, 8 cores, 32 threads
Sun Solaris 10
32 GB (16x2048 MB) Crucial DDR-2 533
NIC: 1 Gb intel RC82540EM - Intel E1000 driver
Intel Server 1:
Dual Intel Xeon "Woodcrest" 3 GHz Shared 4 MB L2 cache, 1333 MHz FSB (4核心)
Blackford Chipset
64 bit Gentoo Kernel 2.6.15-gentoo-r7
Intel Server Board S5000
4 GB (4x1024 MB) Micron FB-DIMM Registered DDR2-533 CAS 4, ECC enabled
NIC: Dual Intel PRO/1000 Server NIC
2x Western Digital Raptor 36 GB SATA
Intel Server 2:
Dual Intel Xeon "Irwindale" 3.6 GHz 2 MB L2 cache, 800 MHz FSB - Lindenhurst
64 bit Gentoo Kernel 2.6.15-gentoo-r7
Intel Server Board SE7520AF2
8 GB (8x1024 MB) Micron Registered DDR2-400 CAS 3, ECC enabled
NIC: Dual Intel PRO/1000 Server NIC (Intel 82546GB controller)
2x Western Digital Raptor 36 GB SATA
Opteron Server 1: Dual Opteron 275 2.2 GHz 2x1MB L2 cache (4 cores total)
64 bit Gentoo Kernel 2.6.15-gentoo-r7
Solaris x86 10
MSI K8N MASTER2-FAR
4 GB: 4x1GB MB Crucial DDR-400 (3-3-3-6)
NIC: Broadcom BCM5721 (PCI-E)
2x Western Digital Raptor 36 GB SATA
Opteron Server 2: MSI K2-102A2M
ServerWorksHT2000 Chipset
64 bit Gentoo Kernel 2.6.15-gentoo-r7
4 GB: 4x1GB MB Crucial DDR-400 (3-3-3-6)
NIC: Broadcom BCM5721 (PCI-E)
2x Western Digital Raptor 36 GB SATA
Opteron Server 3: HP DL385
Solaris x86 10
AMD 81xx chipset
64 bit Gentoo Kernel 2.6.15-gentoo-r7
4 GB: 4x1GB MB Crucial DDR-400 (3-3-3-6)
NIC: Broadcom BCM5721 (PCI-E)
2x Seagate Cheetah 36 GB - 15000 rpm - SCSI 320 MB/s{{分頁}}
Client Configuration: Dual Opteron 850
MSI K8T Master1-FAR
4x512 MB infineon Registered DDR-333, ECC
NIC: Broadcom 5705
Common Software
64 bit Gentoo Kernel 2.6.15-gentoo-r7
Apache2 2.0.55 + mod_deflate module for gzip compression.
PHP4.4.1
Mysql5.0.21
SPEC FP和lnt 2000是用來測試CPU性能的標準測試軟件。不過,實際的測試得分受編譯器的影響相當大。SPEC fp和integer將會顯示最佳的性能表現。不過在實際運用中,處理器的表現會相對保守一些。
而在我們的這篇文章中,這代表著SPEC的測試數據會比它在實際應用程序的表現中略高一些。不過,通過SPEC CPU 2000,我們倒是可以很好地了解一顆處理器的性能。正如前述,測試中的Xeon 5000就是采用了新Woodcrest核心的Xeon處理器。
SPECfp | ||
Clockspeed | SPEC fp 2000 | |
POWER5+ | 2200 | 3271 |
Itanium 2 | 1666 | 2851 |
Xeon 5160 | 3000 | 2783 |
Opteron | 2800 | 2256 |
Pentium 4 E | 3733 | 2232 |
我們看到,新核心的Woodcrest要比最快的雙核心Opteron快20-25%左右。而得益于新的65nm工藝,Woodcrest的核心速度提高了7%。如果AMD能夠讓自己的處理器頻率達到英特爾的水平,將能帶來15%左右的性能提升。不過在大部分的64bit和128bit SSE程序中,英特爾的Woodcrest依舊占據了非常明顯的性能優(yōu)勢。
SPECint | ||
Clockspeed | SPEC Int 2000 | |
Xeon 5160 | 3000 | 3057 |
Pentium 4 E | 3733 | 1870 |
Opteron | 2800 | 1837 |
Pentium 4 Xeon | 3733 | 1813 |
POWER5+ | 2200 | 1705 |
Itanium 2 | 1666 | 1502 |
在對整數性能的測試中,Woodcrest輕松超越了其他幾款橫向對比的處理器。接下來我們就看看在服務器程序中SPEC lnt 2000的整數性能。
延遲
LMBench是一款能夠用來判定內存時序和指令時序的測試軟件。我們使用LMBench3.0a-5進行了測試。應該說LMBench的結果通常都是正確的,但并不總是正確的。如果軟件無法正確識別出某種架構,很有可能出現錯誤的測試結果。因次我們非常有必要事先來檢查好。
LMBench | |||||||
Clockspeed | L1 (ns) | L1 (cycles) | L2 (ns) | L2 (cycles) | RAM (ns) | RAM (cycles) | |
Xeon 5160 3 GHz | 3000 | 1.01 | 3 | 4.7 | 14 | 117.3 | 345 |
Pentium- M 1.6 GHz | 1593 | 2 | 3 | 6 | 10 | 92.1 | 147 |
Sun T1 1 GHz | 980 | 3 | 3 | 22.1 | 22 | 107.5 | 105 |
Opteron 275 | 2209 | 1 | 3 | 5.5 | 12 | 73 | 161 |
Xeon Irwindale 3.6 GHz | 3594 | 1 | 4 | 8 | 28 | 48.8 | 175 |
大容量的4MB L2緩存擁有一個非常低的延遲:14cycle。如果我們使用諸如ScienceMark這樣的測試工具的話,我們得到的數值將是12cycle,這樣來看,它會是一個非常不好的結果。不過,即便是14cycle,在3GHz下,它的表現依然令人吃驚。而Core Duo(Yonah),
另一方面,緩存的延遲相當高,不過憑借4MB的L2緩存還是將這種影響降到了最低。造成這種現象的原因可能是FB-DIMMs。AMB會造成高延遲,CAS為4的registered DDR2 533芯片會造成一個更高的延遲。這使得內存子系統中的延遲達到了非常高的115ns,而Opteron只有73ns。
ScienceMark的結果則不盡相同,Opteron系統的測試結果為65-70ns,而Woodcrest的測試結果則在70-76ns。
不過在這里,我們則更傾向于LMBench的結果。
由于具備了可以支持模塊取冪和乘法的MAU,Sun T1能夠加速處理SSL的RSA(Rivest Shamir Adleman)和DSA(Digital Signal ALGorithm)的加密、解密操作。每顆T1核心都具備了一個MAU(modular arithmetic unit),這樣8個核心就有了9個MAU。為了能夠充分利用8個MAU,我們需要通過SCF(Solaris Cryptographic Framework)來完成SSLI的計算過程。我們使用命令openssl speed -engine pkcs11 rsa來測試T1的MAU。Solaris 10系統還提供了in-kernel SSL終端,它的安全性要比kernel之外的SSL終端要更完善。
我們在測試中選擇了惠普的DL585來測試Opteron 880的8個核心是否可以和Sun T1 的8個MAU一拼高下。如果想要對Woodcrest和Opteron進行比較,我們則需要檢測2和4并行碼。我們可以在下面的圖表中看到1024bit的數值。每顆核心一個線程師最好的選擇,因此我們測試DL585時使用最大的16線程,這樣8線程的性能就是最強的。測試Xeon Irwidale使用8線程,因此5線程就是最強的,如此類推。
我們注意到8MAU的Sun T1在關閉32“SSL RSA signing”線程后只能獲得全效性能。在那種情況下,1GHz的T1能夠和2.4GHz的8核心DL585取得近似的性能。如果不考慮MAU,T1的性能表現會和1.8GHzde Xeon Irwindale一樣快。因此如果你想要在Sun T2000上運行自己的安全網絡服務的話,對你的網絡服務器進行SCF的檢查將會是必不可少的了。
此外,我們注意到之前的Netburst架構的表現非常糟糕。這是因為在Pentium 4核心的內部缺少了barrel shifter,這是一種能夠將大量數據轉換或者循環(huán)進入一個時鐘周期的電路。由于缺少了這種轉換裝置,造成延遲過高。就大多數的x86代碼而言不能忽視這一點,不過代碼的加密常常需要使用到這個轉換和循環(huán)的過程。我們分別在HYper-Threading打開和關閉的兩種情況下進行了測試。在這種情況下,Hyer-Threading為編碼加密帶來了20-28%的性能提升。
我們對四核心AMD Opteron 2.4GHz、四核心Xeon Woodcrest和Sun T1(打開MAU,分配不同長度的RSA)進行了對比測試。
RSA Encryption (Signs/s) | |||
|
Opteron 2.4 GHz |
Xeon 5160 3 GHz |
SUN T1 with MAU |
512 bit |
19003 |
21194 |
35613 |
1024 bit |
6098 |
6240 |
10722 |
2048 bit |
1145 |
1087 |
1918 |
4096 bit |
185 |
164 |
1 |
我們注意到T1的硬件加速并沒有在2048bit下表現得更加優(yōu)秀一些??紤]到大部分的安全程序依然是使用的1024bit,這樣的結果我們也可以接受了。
在信號的檢測中,服務器必須鑒定客戶端的一致性。在1024bit下Woodcrest和Opteron都能檢測到每顆核心超過50000keys,而且這還是OpenSSL檢測程序的硬件限制。
Opteron再次在測試中取得了領先。8MAU Sun T1的速度只有4Opteron和Woodcrest的一半。加密往往要比檢測代碼更加損耗服務器的速度。
Apache/PHP/MySQL性能
英特爾的新Xeon在這里“掃了地”。比2.4GHz的Opteron高出75%的性能,新Xeon即使在面對3GHz的Opteron也不會存在什么問題。我們本應該做更深一步的研究,不過現在看來似乎是由于大的4MB L2緩存和Woodcrest本身不更加優(yōu)秀的整數性能。而T1在這項測試中的表現則屬于不好不壞。{{分頁}}
Java Webserving
整個測試包括了如下幾個部分:
- Caucho Technology's Resin 2.1.17
- Java Virtual Machine: Java HotSpot(TM) Server VM (build 1.5.0_04-b05)
- Sybase ASE 15.0 for Solaris / Linux
AMD在這里的表現仍然只能算是差強人意,如果我們撇開2.4GHz和2.2GHz的兩塊CPU不看,3GHz的Opteron仍要比3GHz的Woodcrest慢25%!
本次用于測試的MySQL參數如下:
[mysqld]
port3306
socket= /tmp/mysql.sock
skip-locking
key_buffer = 1G
max_allowed_packet = 1M
table_cache = 1024
sort_buffer_size = 2M
read_buffer_size = 2M
read_rnd_buffer_size = 8M
thread_cache = 125
max_user_conNECtions = 450
max_connections = 450
thread_concurrency = 16
測試結果:
T1需要20-30 MySQL線程才能全速運行,這很大程度上是受到了8核心"4 thread Gatling gun core"架構的影響。
MySQL的性能很難令人滿意,和上述的優(yōu)化以后的圖表比起來,性能下降了大約有4-5倍。
接下來我們看看單顆的雙核心Woodcrest和雙核心的Opteron、四核心的Sun T1的比較。
為了能對雙核心進行測試,我們在這里對Xeon Irwindale也進行了測試。額外的1MB緩存使得Irwindale測試成績改善了7-8%。不過Hyper-Threding并沒有對MySQl起到什么幫助,我們注意到這里出現的一個大約7%的性能降幅。
MySQL Linux (Queries/s) | |||||
Sun T1 4/8 cores 1 GHz |
MSI K2-102A2M Opteron 275 |
Xeon 5160 Woodcrest 3 GHz |
MSI K2-102A2M Opteron 280 | ||
Average Dual-core (T1: quad-core) |
362 | 749 | 996 | 805 | |
Average Quad-core (T1: octal-core) |
433 | 590 | 904 | 622 | |
相關推薦技術專區(qū) |
評論