0%

系统资源命令

系统资源命令

当前系统负载

w查看的是整体的负载,可以来观察当前系统有没有压力

1
w

系统当前负载

第一行显示的内容依次为:时间、系统运行时间、登录用户数、平均负载(1分钟、5分钟、15分钟)

第二行后展示的信息为:当前登录的都有哪些用户、在哪里登录的等信息

平均负载不要高于设备核心数

系统资源查看

vmstat命令

使用vmstat命令可以更加细化w命令,来查看具体是哪里的压力

显示内存、分页、块传输和CPU活动的相关信息,评估cpu性能

1
2
3
#vmstat [刷新延时 刷新次数]
# 使用vmstat检测,每1秒刷新一次,一共刷新3次
vmstat 1 3

vmstat命令结果

结果信息

procs 进程

  • r 等待cpu时间片和运行的进程数,数量越大,系统越繁忙,如果长期大于服务器cpu,则说明cpu不够用了
  • b 等待资源的进程数,如等待IO、内存等,数量越大,系统越繁忙,如果该值长时间大于1,需要关注一下

memory 内存

  • swpd 切换到交换分区的内存大小,单位kb,如果swpd的值不为0,或者比较大,只要si和so的值长期为0就不用担心
  • free 空闲的内存容量,单位kb
  • buff buffers cache的内存容量,即将写入磁盘的,单位kb,一般对块设备的读写才需要缓冲
  • cache page cached的内存容量,从磁盘中读取的,单位kb,一般作为文件系统进行缓存,频繁访问的文件都会被缓存。如果cache值比较大,说明缓存的文件数较多,如果此时io中的bi比较小,说明文件系统效率比较好

swap 交换分区,这两个数越大,说明内存不够用了,内存中的数据频繁交换到交换分区中,对系统性能影响极大

  • si 每秒从内存进入交换区的数据的容量
  • so 每秒从交换区进入内存的数量

io 磁盘IO,这两个数越大,代表磁盘IO越繁忙。如果bi+bo超过1000,而且wa值较大,表示系统磁盘IO有问题

  • bi 从块设备读取数据的总量,读磁盘 kb/s
  • bo 从块设备写入数据的总量,写磁盘 kb/s

system 系统信息,显示采集间隔内发生的中断次数,这两个数越大,表示系统与接口设备的通信越繁忙,由内核消耗的CPU时间越多

  • in 某一时间间隔内观测到的每秒被中断的进程次数
  • cs 每秒进行事件切换次数(上下文切换的次数)

cpu CPU信息,如果us+sy大于80%,说明可能存在cpu资源不足

  • us 用户进程消耗CPU运算时间的百分比,如果长期大于50%,需要考虑优化程序
  • sy 内核进程消耗CPU运算时间的百分比
  • id 空闲CPU的时间百分比
  • wa 等待IO所消耗的CPU时间百分比。wa值越高,说明IO等待越严重。如果wa超过20%,说明IO等待严重,引起IO等待的原因可能是磁盘大量随机读写造成的,也可能是磁盘或磁盘控制器的带宽瓶颈造成的
  • st 被虚拟机所盗用的CPU占比

iostat命令

显示平均磁盘活动和处理器负载情况

1
2
3
4
5
6
7
8
9
10
#iostat [刷新延时 刷新次数]
# 使用iostat检测,每1秒刷新一次,一共刷新3次
iostat 1 3

选项
-d 查看磁盘使用情况
-k 以KB为单位显示
-c 显示CPU使用情况
-t 打印出统计信息开始执行是啊金
-x device 指定要统计的磁盘设备名称
iostat命令结果

%user 在用户级别执行

%nice 以nice优先方式在用户级别执行

%system 在系统级别执行(内核进程)

%iowait 等待IO

%steal 等待虚拟进程

%idle 空闲时间

tps 每秒处理的IO请求数,kB_read/s每秒从设备读取的数据量, kB_wrtn/s每秒向设备写入的数据量, kB_read读取的数据总量, kB_wrtn写入的数据总量

查看硬盘的IO性能

1
iostat -d -x -k 1 5
iostat查看硬盘IO性能

这里一般看两个参数

  • %util 如果达到100%,说明产生的IO请求太多,IO系统已经满负荷了,磁盘存在瓶颈
  • await 这个响应时间应该低于5ms,如果大于5ms表示磁盘IO压力很大,考虑更换响应速度更快的磁盘

ifstat命令

网络io

1
ifstat

iftop命令

列出主机与远程ip之间占用大部分带宽的网络连接

1
2
3
4
5
6
7
8
9
10
11
12
13
iftop -ieth1 -nP

-i设定监测的网卡,如:# iftop -i ens33
-B 以bytes为单位显示流量(默认是bits),如:# iftop -B
-n使host信息默认直接都显示IP,如:# iftop -n
-N使端口信息默认直接都显示端口号,如: # iftop -N
-F显示特定网段的进出流量,如# iftop -F 10.10.1.0/24或# iftop -F 10.10.1.0/255.255.255.0
-h(display this message),帮助,显示参数信息
-p使用这个参数后,中间的列表显示的本地主机信息,出现了本机以外的IP信息;
-b使流量图形条默认就显示;
-f这个暂时还不太会用,过滤计算包用的;
-P使host信息及端口信息默认就都显示;
-m设置界面最上边的刻度的最大值,刻度分五个大段显示,例:# iftop -m 100M

进入iftop页面后还可以对页面进行调整,参数如下

按h切换是否显示帮助;
按n切换显示本机的IP或主机名;
按s切换是否显示本机的host信息;
按d切换是否显示远端目标主机的host信息;
按t切换显示格式为2行/1行/只显示发送流量/只显示接收流量;
按N切换显示端口号或端口服务名称;
按S切换是否显示本机的端口信息;
按D切换是否显示远端目标主机的端口信息;

按p切换是否显示端口信息;
按P切换暂停/继续显示;
按b切换是否显示平均流量图形条;
按B切换计算2秒或10秒或40秒内的平均流量;
按T切换是否显示每个连接的总流量;
按l打开屏幕过滤功能,输入要过滤的字符,比如ip,按回车后,屏幕就只显示这个IP相关的流量信息;
按L切换显示画面上边的刻度;刻度不同,流量图形条会有变化;
按j或按k可以向上或向下滚动屏幕显示的连接记录;
按1或2或3可以根据右侧显示的三列流量数据进行排序;
按<根据左边的本机名或IP排序;
按>根据远端目标主机的主机名或IP排序;
按o切换是否固定只显示当前的连接;
按f可以编辑过滤代码,这是翻译过来的说法,我还没用过这个!
按!可以使用shell命令,这个没用过!没搞明白啥命令在这好用呢!
按q退出监控

pidstat

pidstat是一个多功能的诊断工具

1
2
3
4
5
6
7
8
9
10
11
# 可以监控cpu
# -p 指定进程id 每秒钟采样一次,一共采样三次 -u表示对cpu使用率的监控 -t 参数将监控细化到线程级别
pidstat -p 25555 1 3 -u -t

# 也可以监控io
# -p 指定进程id 每秒钟采样一次,一共采样三次 -d表示对io的监控 -t 参数将监控细化到线程级别
pidstat -p 25555 1 3 -d -t

# 也可以内存
# -p 指定进程id 每秒钟采样一次,一共采样三次 -r表示对内存的监控 -t 参数将监控细化到线程级别
pidstat -p 25555 1 3 -r -t

free命令

显示内存使用率

1
2
3
4
5
free

选项
-m 表示以MB为单位显示
-s 每隔几秒更新一次显示

free命令结果

使用 free -h 可以展示为使用K或M或G为单位

第一行是内存信息:total表示总内存数,used表示已经使用的,free表示空闲的,shared表示多个进程共享的,buffers表示缓冲内存数,cached表示缓存内存数

第二行是缓冲缓存信息:-/buffers/cache(正在使用的) 相当于 used-buffers-cached,+/buffers/cache(可用的内存) 相当于 free+buffers+cached

如何回收buff/cache

echo 1 > /proc/sys/vm/drop_caches # 仅清除页面缓存
echo 2 > /proc/sys/vm/drop_caches # 清除目录项和inode
echo 3 > /proc/sys/vm/drop_caches # 清除页面缓存、目录项以及inode
第三行是分区信息:total是swap的总数,used是已经使用的,free是空闲的,当上面提到的+buffers/cache表示的可用内存都已使用完,新的读写请求过来后,会把内存中的部分数据写入磁盘,从而把磁盘的部分空间当做虚拟内存来使用

如果swap内存使用过多,则说明物理内存已经不够用了,操作系统将本应该物理内存存储的一部分内存页调度到磁盘上,以腾出足够的空间给当前的进程使用。当其他进程需要运行时,在从磁盘将内存的页调度到物理内存中,以恢复进程的运行。这个调度的过程,则会产生swap IO,如果swap IO较为频繁,会影响系统的性能,可以使用vmstat来查看swap IO的情况

可以配合vmstat来观察swap的IO情况

查看CPU/内存信息

在/proc文件夹中有cpuinfo和meminfo可以查看CPU和内存信息

cpuinfo

查看物理CPU个数

1
2
# 具有相同physical id的cpu是同一个CPU封装的线程或核心
cat /proc/cpuinfo | grep 'physical id' | sort | uniq | wc -l

查看每个cpu中core的核数

1
cat /proc/cpuinfo | grep 'cpu cores' | uniq

查看逻辑CPU的个数

1
cat /proc/cpuinfo | grep 'processor' | wc -l

查看有几个逻辑cpu,包括cpu型号

1
2
3
cat /proc/cpuinfo | grep name | cut -f2 -d: | uniq -c

4 Intel(R) Xeon(R) Platinum 8269CY CPU @ 2.50GHz

一般服务器显示的都是逻辑CPU个数

uptime命令

显示系统运行了多长时间

1
2
3
uptime
# 系统当前时间、系统运行了多长时间、有多少用户正在使用该系统、系统每隔1分钟、5分钟、15分钟的平均负载
# 16:49:00 up 13 days, 23:15, 2 users, load average: 0.01, 0.04, 0.04

sar命令

显示系统活动报告,可以全面获取系统的CPU、运行队列、磁盘IO、分页、内存、CPU中断、网络等性能数据

查看网络运行状态

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
# sar [options] [-o filename] [interval] [count]
# -n表示汇报网络状况
# DEV表示查看各个网卡的网络流量
# 第一个1表示每一秒抽样一次,第二个1表示总共抽取1次
sar -n DEV 1 1
Linux 3.10.0-1160.59.1.el7.x86_64 10/28/2022 _x86_64_ (2 CPU)

11:51:57 AM IFACE rxpck/s txpck/s rxkB/s txkB/s rxcmp/s txcmp/s rxmcst/s
11:51:58 AM eth0 41.00 43.00 6.95 7.87 0.00 0.00 0.00
11:51:58 AM lo 0.00 0.00 0.00 0.00 0.00 0.00 0.00

Average: IFACE rxpck/s txpck/s rxkB/s txkB/s rxcmp/s txcmp/s rxmcst/s
Average: eth0 41.00 43.00 6.95 7.87 0.00 0.00 0.00
Average: lo 0.00 0.00 0.00 0.00 0.00 0.00 0.00

# lo表示本地回环网络,eth0表示网卡 rxpck/s表示每秒接收数据包数量 txpck/s表示每秒发出数据包数量 rxkB/s表示每秒接收的字节数 txkB/s表示每秒发出的字节数 rxcmp/s表示每秒收到的压缩包数量 txcmp/s表示每秒发出的压缩包数量 rxmcst/s表示每秒收到的广播包数量

这里要注意一下,如果rxpck/s数值大于4000,或者rxkB/s大于5000的时候,需要观察一下是否有异常,流量有些高

也可以查看某一天的网卡流量

1
2
# sa21是文件名
sar -n DEV -f /var/log/sa/sa21

查看平均负载

1
2
3
4
5
6
7
8
9
10
11
12
13
sar -q 10 3

03:57:28 PM runq-sz plist-sz ldavg-1 ldavg-5 ldavg-15 blocked
03:57:38 PM 0 1082 0.06 0.13 0.27 0
03:57:48 PM 1 1082 0.05 0.12 0.27 0
03:57:58 PM 0 1082 0.04 0.12 0.26 0
Average: 0 1082 0.05 0.12 0.27 0

runq-sz:运行队列的长度
plist-sz:进程列表中的进程和线程数
ldavg-1:最近1分钟的CPU平均负载
ldavg-5:最近5分钟的CPU平均负载
ldavg-15:最近15分钟的CPU平均负载

查看CPU使用率

1
2
3
4
5
6
7
8
sar -u 10 3


03:56:33 PM CPU %user %nice %system %iowait %steal %idle
03:56:43 PM all 0.63 0.00 0.23 0.00 0.00 99.15
03:56:53 PM all 0.91 0.00 0.35 0.00 0.00 98.74
03:57:03 PM all 2.03 0.00 0.45 0.03 0.00 97.49
Average: all 1.19 0.00 0.34 0.01 0.00 98.46

查看某个CPU运行负载,程序使用了单线程,可能会有整体CPU使用率不高,但是某个CPU飚满的情况

1
2
# CPU是从0开始计数的,1表示的是第二个CPU
sar -P 1 3 5

查看系统磁盘情况

1
sar -d 3 5

查看内存使用情况

1
sar -r 3 5

选项

  • -A 显示系统所有资源设备(CPU、内存、磁盘)的运行状况
  • -u 显示系统所有CPU在采样时间内的负载状态
  • -P 显示当前系统中指定CPU的使用情况
  • -d 显示系统所有硬盘设备在采样时间内的使用情况
  • -r 显示系统内存在采样时间内的使用使用情况
  • -b 显示缓冲区在采样时间内的使用情况
  • -v 显示进程、文件、节点和锁表状态
  • -n 显示网络运行状态。参数后边可跟DEV、EDEV、SOCK、FULL。DEV显示网络接口信息;EDEV显示网络错误的统计信息;SOCK显示套接字信息;FULL显示前三个参数的所有信息
  • -q 显示运行队列的大小,与系统当时的平均负载相同
  • -R 显示进程在采样时间内的活动情况
  • -y 显示终端设备在采样时间内的活动情况
  • -w 显示系统交换活动在采样时间内的状态
  • -o filename 表示将命令结果以二进制格式存放在文件中
  • interval 采样时间间隔
  • count 采样次数

lsmod命令

查看已载入系统的模块,是list modules的缩写,其查看的是/prco/modules中的内容

1
2
3
4
lsmod

# 展示的内容,第一列为模块的名称;第二列为模块的大小;第三列为依赖模块的个数,第四列为依赖模块的内容
drm 303102 3 ttm,drm_kms_helper,cirrus

欢迎关注我的其它发布渠道