盘卓云-盘卓云社区-全球服务器主机管理面板技术交流

 找回密码
 立即注册
搜索
本站永久域名:www.vpsol.com维优网官方QQ群:29611365论坛管理规则,新老会员必看
开启左侧

pve 报错邮件 FailedReadSmartErrorLog FailedOpenDevice

[复制链接]
蓝浩 发表于 2019-4-3 12:01:35 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
环境介绍:A服务器两个虚拟机:ubuntu zfs raidz1 (3个4T西数监控紫盘 使用LSI 9217 HBA直通卡直通)
B服务器两个虚拟机:ubuntu(3个4T西数nas红盘 使用LSI 9261 raid卡 直通)

pve检测硬盘健康信息的时候,会报错,然后发送报错邮件 QQ截图20190403121050.png

A服务器为 SMART error (FailedOpenDevice) detected on host: xxxx
同时pve的syslog有日志:
  1. Apr 03 11:11:50 xxxx smartd[1511]: Device: /dev/sdb [SAT], open() failed: No such device
  2. Apr 03 11:11:50 xxxx  smartd[1511]: Device: /dev/sdc [SAT], open() failed: No such device
  3. Apr 03 11:11:50 xxxx  smartd[1511]: Device: /dev/sdd [SAT], open() failed: No such device
复制代码

B服务器为 SMART error (FailedReadSmartErrorLog) detected on host: xxxx
  1. Apr 03 11:23:48 xxxx smartd[1383]: Device: /dev/bus/1 [megaraid_disk_01] [SAT], failed to read SMART Attribute Data
  2. Apr 03 11:23:48 xxxx smartd[1383]: Device: /dev/bus/1 [megaraid_disk_01] [SAT], Read SMART Self Test Log Failed
  3. Apr 03 11:23:48 xxxx  smartd[1383]: Device: /dev/bus/1 [megaraid_disk_01] [SAT], Read Summary SMART Error Log failed
  4. Apr 03 11:23:48 xxxx smartd[1383]: Device: /dev/bus/1 [megaraid_disk_02] [SAT], failed to read SMART Attribute Data
  5. Apr 03 11:23:48 xxxx smartd[1383]: Device: /dev/bus/1 [megaraid_disk_02] [SAT], Read SMART Self Test Log Failed
  6. Apr 03 11:23:48 xxxx smartd[1383]: Device: /dev/bus/1 [megaraid_disk_02] [SAT], Read Summary SMART Error Log failed
  7. Apr 03 11:23:48 xxxx smartd[1383]: Device: /dev/bus/1 [megaraid_disk_03] [SAT], failed to read SMART Attribute Data
  8. Apr 03 11:23:48 xxxx smartd[1383]: Device: /dev/bus/1 [megaraid_disk_03] [SAT], Read SMART Self Test Log Failed
  9. Apr 03 11:23:48 xxxx smartd[1383]: Device: /dev/bus/1 [megaraid_disk_03] [SAT], Read Summary SMART Error Log failed
复制代码

初步怀疑,A服务器的硬盘直通给ubuntu以后,pve无法读取直通后的硬盘ZFS,故无法打开。B服务器由于是硬raid卡,硬盘已经被raid卡模拟成一个虚拟的磁盘组了,故pve系统可以打开,但是无法读取smartd信息。

故配置smartmontools
  1. vi /etc/default/smartmontools
复制代码
  1. # List of devices you want to explicitly enable S.M.A.R.T. for
  2. # Not needed (and not recommended) if the device is monitored by smartd
  3. #enable_smart="/dev/hda /dev/hdb"
  4. enable_smart="/dev/sda /dev/sdb /dev/sdc /dev/sdd"
复制代码
以上内容根据需要修改。

配置smartd.conf
  1. vi /etc/smartd.conf
复制代码
找到
  1. DEVICESCAN -m root -M exec /usr/share/smartmontools/smartd-runner
复制代码
DEVICESCAN意味着smartd将监控所有可以找到的硬盘。 -m开关指定smartd将发送警告/错误的用户或电子邮件地址。 例如,要仅监视/ dev / hda并向admin@example.com发送警告/错误,请改用以下配置:
  1. /dev/hda  -m admin@example.com -M exec /usr/share/smartmontools/smartd-runner
复制代码
以上内容根据需要修改

然后重启smartd
  1. /etc/init.d/smartmontools restart
复制代码
搞定。

后发现pve的syslog里面其实是有可以读取到硬盘的,比如:
  1. Apr 03 11:37:22 xxxx smartd[1511]: Device: /dev/sdb [SAT], state written to /var/lib/smartmontools/smartd.WDC_WD40EFRX_xxxx.ata.state
  2. Apr 03 11:37:22 xxxx smartd[1511]: Device: /dev/sdc [SAT], state written to /var/lib/smartmontools/smartd.WDC_WD40EFRX_xxxx.ata.state
  3. Apr 03 11:37:22 xxxx smartd[1511]: Device: /dev/sdd [SAT], state written to /var/lib/smartmontools/smartd.WDC_WD40EFRX_xxxx.ata.state
复制代码
问题最终确定应该是ubuntu系统将硬盘休眠了,然后pve无法检测到休眠状态。
但是总不能不让硬盘休眠吧。所以关掉这几块硬盘的监控,让ubuntu自己监控去吧。
【完】

全球主机服务器管理面板交流社区
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表