Linux服務(wù)器的那些性能參數(shù)指標(biāo) +關(guān)注 +發(fā)表新主題

Linux服務(wù)器的那些性能參數(shù)指標(biāo)

發(fā)表于討論求助 2023-05-18 23:00:13

點(diǎn)擊上方“程序員大咖”，選擇“置頂公眾號”

關(guān)鍵時刻，第一時間送達(dá)！

一個基于 Linux 操作系統(tǒng)的服務(wù)器運(yùn)行的同時，也會表征出各種各樣參數(shù)信息。通常來說運(yùn)維人員、系統(tǒng)管理員會對這些數(shù)據(jù)會極為敏感，但是這些參數(shù)對于開發(fā)者來說也十分重要，尤其當(dāng)你的程序非正常工作的時候，這些蛛絲馬跡往往會幫助快速定位跟蹤問題。

這里只是一些簡單的工具查看系統(tǒng)的相關(guān)參數(shù)，當(dāng)然很多工具也是通過分析加工 /proc、/sys 下的數(shù)據(jù)來工作的，而那些更加細(xì)致、專業(yè)的性能監(jiān)測和調(diào)優(yōu)，可能還需要更加專業(yè)的工具(perf、systemtap 等)和技術(shù)才能完成哦。畢竟來說，系統(tǒng)性能監(jiān)控本身就是個大學(xué)問。

一、CPU和內(nèi)存類

1.1

top

? ~ top

第一行后面的三個值是系統(tǒng)在之前 1、5、15 的平均負(fù)載，也可以看出系統(tǒng)負(fù)載是上升、平穩(wěn)、下降的趨勢，當(dāng)這個值超過 CPU 可執(zhí)行單元的數(shù)目，則表示 CPU 的性能已經(jīng)飽和成為瓶頸了。

第二行統(tǒng)計(jì)了系統(tǒng)的任務(wù)狀態(tài)信息。running 很自然不必多說，包括正在 CPU 上運(yùn)行的和將要被調(diào)度運(yùn)行的；sleeping 通常是等待事件(比如 IO 操作)完成的任務(wù)，細(xì)分可以包括 interruptible 和 uninterruptible 的類型；stopped 是一些被暫停的任務(wù)，通常發(fā)送 SIGSTOP 或者對一個前臺任務(wù)操作 Ctrl-Z 可以將其暫停；zombie 僵尸任務(wù)，雖然進(jìn)程終止資源會被自動回收，但是含有退出任務(wù)的 task descriptor 需要父進(jìn)程訪問后才能釋放，這種進(jìn)程顯示為 defunct 狀態(tài)，無論是因?yàn)楦高M(jìn)程提前退出還是未 wait 調(diào)用，出現(xiàn)這種進(jìn)程都應(yīng)該格外注意程序是否設(shè)計(jì)有誤。

第三行 CPU 占用率根據(jù)類型有以下幾種情況：

(us) user：CPU 在低 nice 值(高優(yōu)先級)用戶態(tài)所占用的時間(nice<=0)。正常情況下只要服務(wù)器不是很閑，那么大部分的 CPU 時間應(yīng)該都在此執(zhí)行這類程序
(sy) system：CPU 處于內(nèi)核態(tài)所占用的時間，操作系統(tǒng)通過系統(tǒng)調(diào)用(system call)從用戶態(tài)陷入內(nèi)核態(tài)，以執(zhí)行特定的服務(wù)；通常情況下該值會比較小，但是當(dāng)服務(wù)器執(zhí)行的 IO 比較密集的時候，該值會比較大
(ni) nice：CPU 在高 nice 值(低優(yōu)先級)用戶態(tài)以低優(yōu)先級運(yùn)行占用的時間(nice>0)。默認(rèn)新啟動的進(jìn)程 nice=0，是不會計(jì)入這里的，除非手動通過 renice 或者 setpriority() 的方式修改程序的nice值
(id) idle：CPU 在空閑狀態(tài)(執(zhí)行 kernel idle handler )所占用的時間
(wa) iowait：等待 IO 完成做占用的時間
(hi) irq：系統(tǒng)處理硬件中斷所消耗的時間
(si) softirq：系統(tǒng)處理軟中斷所消耗的時間，記住軟中斷分為 softirqs、tasklets (其實(shí)是前者的特例)、work queues，不知道這里是統(tǒng)計(jì)的是哪些的時間，畢竟 work queues 的執(zhí)行已經(jīng)不是中斷上下文了
(st) steal：在虛擬機(jī)情況下才有意義，因?yàn)樘摂M機(jī)下 CPU 也是共享物理 CPU 的，所以這段時間表明虛擬機(jī)等待 hypervisor 調(diào)度 CPU 的時間，也意味著這段時間 hypervisor 將 CPU 調(diào)度給別的 CPU 執(zhí)行，這個時段的 CPU 資源被“stolen”了。這個值在我 KVM 的 VPS 機(jī)器上是不為 0 的，但也只有 0.1 這個數(shù)量級，是不是可以用來判斷 VPS 超售的情況？

CPU 占用率高很多情況下意味著一些東西，這也給服務(wù)器 CPU 使用率過高情況下指明了相應(yīng)地排查思路：

a、當(dāng) user 占用率過高的時候，通常是某些個別的進(jìn)程占用了大量的 CPU，這時候很容易通過 top 找到該程序；此時如果懷疑程序異常，可以通過 perf 等思路找出熱點(diǎn)調(diào)用函數(shù)來進(jìn)一步排查；

b、當(dāng) system 占用率過高的時候，如果 IO 操作(包括終端 IO)比較多，可能會造成這部分的 CPU 占用率高，比如在 file server、database server 等類型的服務(wù)器上，否則(比如>20%)很可能有些部分的內(nèi)核、驅(qū)動模塊有問題；

c、當(dāng) nice 占用率過高的時候，通常是有意行為，當(dāng)進(jìn)程的發(fā)起者知道某些進(jìn)程占用較高的 CPU，會設(shè)置其 nice 值確保不會淹沒其他進(jìn)程對 CPU 的使用請求；

d、當(dāng) iowait 占用率過高的時候，通常意味著某些程序的 IO 操作效率很低，或者 IO 對應(yīng)設(shè)備的性能很低以至于讀寫操作需要很長的時間來完成；

e、當(dāng) irq/softirq 占用率過高的時候，很可能某些外設(shè)出現(xiàn)問題，導(dǎo)致產(chǎn)生大量的irq請求，這時候通過檢查 /proc/interrupts 文件來深究問題所在；

f、當(dāng) steal 占用率過高的時候，黑心廠商虛擬機(jī)超售了吧！

第四行和第五行是物理內(nèi)存和虛擬內(nèi)存(交換分區(qū))的信息：

total = free + used + buff/cache，現(xiàn)在buffers和cached Mem信息總和到一起了，但是buffers和cached

Mem 的關(guān)系很多地方都沒說清楚。其實(shí)通過對比數(shù)據(jù)，這兩個值就是 /proc/meminfo 中的 Buffers 和 Cached 字段：Buffers 是針對 raw disk 的塊緩存，主要是以 raw block 的方式緩存文件系統(tǒng)的元數(shù)據(jù)(比如超級塊信息等)，這個值一般比較小(20M左右)；而 Cached 是針對于某些具體的文件進(jìn)行讀緩存，以增加文件的訪問效率而使用的，可以說是用于文件系統(tǒng)中文件緩存使用。

而 avail Mem 是一個新的參數(shù)值，用于指示在不進(jìn)行交換的情況下，可以給新開啟的程序多少內(nèi)存空間，大致和 free + buff/cached 相當(dāng)，而這也印證了上面的說法，free + buffers + cached Mem才是真正可用的物理內(nèi)存。并且，使用交換分區(qū)不見得是壞事情，所以交換分區(qū)使用率不是什么嚴(yán)重的參數(shù)，但是頻繁的 swap in/out 就不是好事情了，這種情況需要注意，通常表示物理內(nèi)存緊缺的情況。

最后是每個程序的資源占用列表，其中 CPU 的使用率是所有 CPU core 占用率的總和。通常執(zhí)行 top 的時候，本身該程序會大量的讀取 /proc 操作，所以基本該 top 程序本身也會是名列前茅的。

top 雖然非常強(qiáng)大，但是通常用于控制臺實(shí)時監(jiān)測系統(tǒng)信息，不適合長時間(幾天、幾個月)監(jiān)測系統(tǒng)的負(fù)載信息，同時對于短命的進(jìn)程也會遺漏無法給出統(tǒng)計(jì)信息。

1.2

vmstat

vmstat 是除 top 之外另一個常用的系統(tǒng)檢測工具，下面截圖是我用-j4編譯boost的系統(tǒng)負(fù)載。

r 表示可運(yùn)行進(jìn)程數(shù)目，數(shù)據(jù)大致相符；而b表示的是 uninterruptible 睡眠的進(jìn)程數(shù)目；swpd 表示使用到的虛擬內(nèi)存數(shù)量，跟 top-Swap-used 的數(shù)值是一個含義，而如手冊所說，通常情況下 buffers 數(shù)目要比 cached Mem 小的多，buffers 一般20M這么個數(shù)量級；io 域的 bi、bo 表明每秒鐘向磁盤接收和發(fā)送的塊數(shù)目(blocks/s)；system 域的 in 表明每秒鐘的系統(tǒng)中斷數(shù)(包括時鐘中斷)，cs表明因?yàn)檫M(jìn)程切換導(dǎo)致上下文切換的數(shù)目。

說到這里，想到以前很多人糾結(jié)編譯 linux kernel 的時候 -j 參數(shù)究竟是 CPU Core 還是 CPU Core+1？通過上面修改 -j 參數(shù)值編譯 boost 和 linux kernel 的同時開啟 vmstat 監(jiān)控，發(fā)現(xiàn)兩種情況下 context switch 基本沒有變化，且也只有顯著增加 -j 值后 context switch 才會有顯著的增加，看來不必過于糾結(jié)這個參數(shù)了，雖然具體編譯時間長度我還沒有測試。資料說如果不是在系統(tǒng)啟動或者 benchmark 的狀態(tài)，參數(shù) context switch>100000 程序肯定有問題。

1.3

pidstat

如果想對某個進(jìn)程進(jìn)行全面具體的追蹤，沒有什么比 pidstat 更合適的了——棧空間、缺頁情況、主被動切換等信息盡收眼底。這個命令最有用的參數(shù)是-t，可以將進(jìn)程中各個線程的詳細(xì)信息羅列出來。

-r：顯示缺頁錯誤和內(nèi)存使用狀況，缺頁錯誤是程序需要訪問映射在虛擬內(nèi)存空間中但是還尚未被加載到物理內(nèi)存中的一個分頁，缺頁錯誤兩個主要類型是

a、minflt/s 指的 minor faults，當(dāng)需要訪問的物理頁面因?yàn)槟承┰?比如共享頁面、緩存機(jī)制等)已經(jīng)存在于物理內(nèi)存中了，只是在當(dāng)前進(jìn)程的頁表中沒有引用，MMU 只需要設(shè)置對應(yīng)的 entry 就可以了，這個代價(jià)是相當(dāng)小的

b、majflt/s 指的 major faults，MMU 需要在當(dāng)前可用物理內(nèi)存中申請一塊空閑的物理頁面(如果沒有可用的空閑頁面，則需要將別的物理頁面切換到交換空間去以釋放得到空閑物理頁面)，然后從外部加載數(shù)據(jù)到該物理頁面中，并設(shè)置好對應(yīng)的 entry，這個代價(jià)是相當(dāng)高的，和前者有幾個數(shù)據(jù)級的差異

-s：棧使用狀況，包括 StkSize 為線程保留的?？臻g，以及 StkRef 實(shí)際使用的?？臻g。使用ulimit -s發(fā)現(xiàn)CentOS 6.x上面默認(rèn)?？臻g是10240K，而 CentOS 7.x、Ubuntu系列默認(rèn)?？臻g大小為8196K

-u：CPU使用率情況，參數(shù)同前面類似

-w：線程上下文切換的數(shù)目，還細(xì)分為cswch/s因?yàn)榈却Y源等因素導(dǎo)致的主動切換，以及nvcswch/s線程CPU時間導(dǎo)致的被動切換的統(tǒng)計(jì)

如果每次都先ps得到程序的pid后再操作pidstat會顯得很麻煩，所以這個殺手锏的-C可以指定某個字符串，然后Command中如果包含這個字符串，那么該程序的信息就會被打印統(tǒng)計(jì)出來，-l可以顯示完整的程序名和參數(shù)

? ~ pidstat -w -t -C “ailaw” -l?

這么看來，如果查看單個尤其是多線程的任務(wù)時候，pidstat比常用的ps更好使！

1.4

其他

當(dāng)需要單獨(dú)監(jiān)測單個 CPU 情況的時候，除了 htop 還可以使用 mpstat，查看在 SMP 處理器上各個 Core 的工作量是否負(fù)載均衡，是否有某些熱點(diǎn)線程占用 Core。

? ~ mpstat -P ALL 1

如果想直接監(jiān)測某個進(jìn)程占用的資源，既可以使用top -u taozj的方式過濾掉其他用戶無關(guān)進(jìn)程，也可以采用下面的方式進(jìn)行選擇，ps命令可以自定義需要打印的條目信息：

while :; do ps -eo user,pid,ni,pri,u,psr,comm | grep 'ailawd'; sleep 1; done

如想理清繼承關(guān)系，下面一個常用的參數(shù)可以用于顯示進(jìn)程樹結(jié)構(gòu)，顯示效果比pstree詳細(xì)美觀的多

? ~ ps axjf

二、磁盤IO類

iotop 可以直觀的顯示各個進(jìn)程、線程的磁盤讀取實(shí)時速率；lsof 不僅可以顯示普通文件的打開信息(使用者)，還可以操作 /dev/sda1 這類設(shè)備文件的打開信息，那么比如當(dāng)分區(qū)無法 umount 的時候，就可以通過 lsof 找出磁盤該分區(qū)的使用狀態(tài)了，而且添加 +fg 參數(shù)還可以額外顯示文件打開 flag 標(biāo)記。

2.1

iostat

? ~ iostat -xz 1

其實(shí)無論使用 iostat -xz 1 還是使用 sar -d 1，對于磁盤重要的參數(shù)是：

avgqu-s：發(fā)送給設(shè)備 I/O 請求的等待隊(duì)列平均長度，對于單個磁盤如果值>1表明設(shè)備飽和，對于多個磁盤陣列的邏輯磁盤情況除外
await(r_await、w_await)：平均每次設(shè)備 I/O 請求操作的等待時間(ms)，包含請求排列在隊(duì)列中和被服務(wù)的時間之和；
svctm：發(fā)送給設(shè)備 I/O 請求的平均服務(wù)時間(ms)，如果 svctm 與 await 很接近，表示幾乎沒有 I/O 等待，磁盤性能很好，否則磁盤隊(duì)列等待時間較長，磁盤響應(yīng)較差；
%util：設(shè)備的使用率，表明每秒中用于 I/O 工作時間的占比，單個磁盤當(dāng) %util>60% 的時候性能就會下降(體現(xiàn)在 await 也會增加)，當(dāng)接近100%時候就設(shè)備飽和了，但對于有多個磁盤陣列的邏輯磁盤情況除外；

還有，雖然監(jiān)測到的磁盤性能比較差，但是不一定會對應(yīng)用程序的響應(yīng)造成影響，內(nèi)核通常使用 I/O asynchronously 技術(shù)，使用讀寫緩存技術(shù)來改善性能，不過這又跟上面的物理內(nèi)存的限制相制約了。

上面的這些參數(shù)，對網(wǎng)絡(luò)文件系統(tǒng)也是受用的。

三、網(wǎng)絡(luò)類

網(wǎng)絡(luò)性能對于服務(wù)器的重要性不言而喻，工具 iptraf 可以直觀的現(xiàn)實(shí)網(wǎng)卡的收發(fā)速度信息，比較的簡潔方便通過 sar -n DEV 1 也可以得到類似的吞吐量信息，而網(wǎng)卡都標(biāo)配了最大速率信息，比如百兆網(wǎng)卡千兆網(wǎng)卡，很容易查看設(shè)備的利用率。

通常，網(wǎng)卡的傳輸速率并不是網(wǎng)絡(luò)開發(fā)中最為關(guān)切的，而是針對特定的 UDP、TCP 連接的丟包率、重傳率，以及網(wǎng)絡(luò)延時等信息。

3.1

netstat

? ~ netstat -s

顯示自從系統(tǒng)啟動以來，各個協(xié)議的總體數(shù)據(jù)信息。雖然參數(shù)信息比較豐富有用，但是累計(jì)值，除非兩次運(yùn)行做差才能得出當(dāng)前系統(tǒng)的網(wǎng)絡(luò)狀態(tài)信息，亦或者使用 watch 眼睛直觀其數(shù)值變化趨勢。所以netstat通常用來檢測端口和連接信息的：

netstat –all(a) –numeric(n) –tcp(t) –udp(u) –timers(o) –listening(l) –program(p)

–timers可以取消域名反向查詢，加快顯示速度；比較常用的有

? ?~ netstat -antp ?#列出所有TCP的連接

? ?~ netstat -nltp ? #列出本地所有TCP偵聽套接字，不要加-a參數(shù)

3.2

sar

sar 這個工具太強(qiáng)大了，什么 CPU、磁盤、頁面交換啥都管，這里使用 -n 主要用來分析網(wǎng)絡(luò)活動，雖然網(wǎng)絡(luò)中它還給細(xì)分了 NFS、IP、ICMP、SOCK 等各種層次各種協(xié)議的數(shù)據(jù)信息，我們只關(guān)心 TCP 和 UDP。下面的命令除了顯示常規(guī)情況下段、數(shù)據(jù)報(bào)的收發(fā)情況，還包括

TCP

? ~ sudo sar -n TCP,ETCP 1?

active/s：本地發(fā)起的 TCP 連接，比如通過 connect()，TCP 的狀態(tài)從CLOSED -> SYN-SENT
passive/s：由遠(yuǎn)程發(fā)起的 TCP 連接，比如通過 accept()，TCP 的狀態(tài)從LISTEN -> SYN-RCVD
retrans/s(tcpRetransSegs)：每秒鐘 TCP 重傳數(shù)目，通常在網(wǎng)絡(luò)質(zhì)量差，或者服務(wù)器過載后丟包的情況下，根據(jù) TCP 的確認(rèn)重傳機(jī)制會發(fā)生重傳操作
isegerr/s(tcpInErrs)：每秒鐘接收到出錯的數(shù)據(jù)包(比如 checksum 失敗)

UDP

? ~ sudo sar -n UDP 1?

noport/s(udpNoPorts)：每秒鐘接收到的但是卻沒有應(yīng)用程序在指定目的端口的數(shù)據(jù)報(bào)個數(shù)
idgmerr/s(udpInErrors)：除了上面原因之外的本機(jī)接收到但卻無法派發(fā)的數(shù)據(jù)報(bào)個數(shù)

當(dāng)然，這些數(shù)據(jù)一定程度上可以說明網(wǎng)絡(luò)可靠性，但也只有同具體的業(yè)務(wù)需求場景結(jié)合起來才具有意義。

3.3

tcpdump

tcpdump 不得不說是個好東西。大家都知道本地調(diào)試的時候喜歡使用 wireshark，但是線上服務(wù)端出現(xiàn)問題怎么弄呢？

附錄的參考文獻(xiàn)給出了思路：復(fù)原環(huán)境，使用 tcpdump 進(jìn)行抓包，當(dāng)問題復(fù)現(xiàn)(比如日志顯示或者某個狀態(tài)顯現(xiàn))的時候，就可以結(jié)束抓包了，而且 tcpdump 本身帶有 -C/-W 參數(shù)，可以限制抓取包存儲文件的大小，當(dāng)達(dá)到這個這個限制的時候保存的包數(shù)據(jù)自動 rotate，所以抓包數(shù)量總體還是可控的。此后將數(shù)據(jù)包拿下線來，用 wireshark 想怎么看就怎么看，豈不樂哉！tcpdump 雖然沒有 GUI 界面，但是抓包的功能絲毫不弱，可以指定網(wǎng)卡、主機(jī)、端口、協(xié)議等各項(xiàng)過濾參數(shù)，抓下來的包完整又帶有時間戳，所以線上程序的數(shù)據(jù)包分析也可以這么簡單。

下面就是一個小的測試，可見 Chrome 啟動時候自動向 Webserver 發(fā)起建立了三條連接，由于這里限制了 dst port 參數(shù)，所以服務(wù)端的應(yīng)答包被過濾掉了，拿下來用 wireshark 打開，SYNC、ACK 建立連接的過程還是很明顯的！在使用 tcpdump 的時候，需要盡可能的配置抓取的過濾條件，一方面便于接下來的分析，二則 tcpdump 開啟后對網(wǎng)卡和系統(tǒng)的性能會有影響，進(jìn)而會影響到在線業(yè)務(wù)的性能。

本文完！

參考

Linux Performance Analysis in 60,000 Milliseconds
Linux Programmer’s Manual PROC-5
20 Command Line Tools to Monitor Linux Performance
linuxperformanceguide
Understanding Linux CPU stats
Linux性能監(jiān)控——CPU,Memory,IO,Network
Linux系統(tǒng)性能指標(biāo)
Performance Analysis
Linux Performance Analysis and Tools
Uncover the Meaning of top’s Statistics
tcpdump 和 wireshark組合拳，揪出有問題的機(jī)器
超級詳細(xì)Tcpdump 的用法
How to surprise by being a Linux-performance “know-it-all”

作者：taozj
鏈接：https://taozj.org/201701/linux-performance-basic.html
程序員大咖整理發(fā)布，轉(zhuǎn)載請聯(lián)系作者獲得授權(quán)

【點(diǎn)擊成為Python大神】

發(fā)表

簽到

26906人簽到看排名