历时一个星期终于 OVH给换个CPU了

74次阅读

共计 3443 个字符,预计需要花费 9 分钟才能阅读完成。

情况是这样的, 有一台母鸡 老是自动关机.(一天出现那么一次两次的样子)
刚开始以为是内核 bug 更新了内核之后 发现还是这样.
觉得不大对劲.
于是看系统日志 发现 有了 硬件错误 mcelog: Hardware event. This is not a software error.
于是乎 装了 mcelog 去看到底出了啥问题.
结果抓取到了 这样的错误信息

  1. Jun  5 22:38:41  mcelog: Hardware event. This is not a software error.
  2. Jun  5 22:38:41  mcelog: MCE 0
  3. Jun  5 22:38:41  mcelog: CPU 3 BANK 0 TSC 2e1e030dc25
  4. Jun  5 22:38:41  mcelog: ADDR 1ffffa10e622b
  5. Jun  5 22:38:41  mcelog: TIME 1654438657 Sun Jun  5 22:17:37 2022
  6. Jun  5 22:38:41  mcelog: MCG status:
  7. Jun  5 22:38:41  mcelog: MCi status:
  8. Jun  5 22:38:41  mcelog: Corrected error
  9. Jun  5 22:38:41  mcelog: Error enabled
  10. Jun  5 22:38:41  mcelog: MCi_ADDR register valid
  11. Jun  5 22:38:41  mcelog: MCA: Instruction CACHE Level-0 Instruction-Fetch Error
  12. Jun  5 22:38:41  mcelog: STATUS 9400004000040150 MCGSTATUS 0
  13. Jun  5 22:38:41  mcelog: MCGCAP c0a APICID 6 SOCKETID 0
  14. Jun  5 22:38:41  mcelog: MICROCODE 7c
  15. Jun  5 22:38:41  mcelog: CPUID Vendor Intel Family 6 Model 158
  16. Jun  5 22:38:41  mcelog: Hardware event. This is not a software error.
  17. Jun  5 22:38:41  mcelog: MCE 1
  18. Jun  5 22:38:41  mcelog: CPU 1 BANK 0 TSC 57cb95e28cf
  19. Jun  5 22:38:41  mcelog: ADDR 1ffffa1a98a1d
  20. Jun  5 22:38:41  mcelog: TIME 1654439339 Sun Jun  5 22:28:59 2022
  21. Jun  5 22:38:41  mcelog: MCG status:
  22. Jun  5 22:38:41  mcelog: MCi status:
  23. Jun  5 22:38:41  mcelog: Corrected error
  24. Jun  5 22:38:41  mcelog: Error enabled
  25. Jun  5 22:38:41  mcelog: MCi_ADDR register valid
  26. Jun  5 22:38:41  mcelog: MCA: Instruction CACHE Level-0 Instruction-Fetch Error
  27. Jun  5 22:38:41  mcelog: STATUS 9400004000040150 MCGSTATUS 0
  28. Jun  5 22:38:41  mcelog: MCGCAP c0a APICID 2 SOCKETID 0
  29. Jun  5 22:38:41  mcelog: MICROCODE 7c
  30. Jun  5 22:38:41  mcelog: CPUID Vendor Intel Family 6 Model 158
  31. Jun  5 22:38:41  mcelog: Hardware event. This is not a software error.
  32. Jun  5 22:38:41  mcelog: MCE 2
  33. Jun  5 22:38:41  mcelog: CPU 3 BANK 0 TSC 6b1889177ae
  34. Jun  5 22:38:41  mcelog: ADDR 1ffffa1242aaa
  35. Jun  5 22:38:41  mcelog: TIME 1654439655 Sun Jun  5 22:34:15 2022
  36. Jun  5 22:38:41  mcelog: MCG status:
  37. Jun  5 22:38:41  mcelog: MCi status:
  38. Jun  5 22:38:41  mcelog: Corrected error
  39. Jun  5 22:38:41  mcelog: Error enabled
  40. Jun  5 22:38:41  mcelog: MCi_ADDR register valid
  41. Jun  5 22:38:41  mcelog: MCA: Instruction CACHE Level-0 Instruction-Fetch Error
  42. Jun  5 22:38:41  mcelog: STATUS 9400004000040150 MCGSTATUS 0
  43. Jun  5 22:38:41  mcelog: MCGCAP c0a APICID 6 SOCKETID 0
  44. Jun  5 22:38:41  mcelog: MICROCODE 7c
  45. Jun  5 22:38:41  mcelog: CPUID Vendor Intel Family 6 Model 158
  46. Jun  5 22:38:41  mcelog: warning: 8 bytes ignored in each record
  47. Jun  5 22:38:41  mcelog: consider an update

复制代码

随后找 OVH 客服 跟他们说 系统老挂啊 给解决一下吧.
客服说行 我给你看一下吧.
然后 一顿操作猛如虎
先跑了个 压测 没死 (这小子忽悠我呢?)
把 CPU 重新插拔了 内存也插拔了
跟我说 我试过了 你说的问题 没遇到啊. 机器没问题
你发的错误啊 系统都自动修复了.(可能是真修复了, 但是没修复的时候 我估计就挂了.)
你接着用吧.
LZ 心想 既然你都压测了 没啥毛病 可能是我系统的姿势不到位?
于是把小鸡全部备份打包 重装系统 (升级内核) 历时一天 然后很平静的过去了
跑去跟客服说 你真牛逼 我机器不死了.
TMD 当天晚上就打脸了有木有.(又 TM 自动炸了)
LZ 很苦逼的 半夜三更被监控叫起来 重启母鸡.
说来也奇怪 每次 TMD 炸机 都是 凌晨..
LZ 也不大好意思找客服了 怕被脸打肿.. 坚持了几天 后  今天凌晨 4 点 它又 崩溃了
然后 LZ 也崩溃了 尼玛 我不重启了.. 给客服看去.
疯狂的找资料
发现了有个老外和 LZ 一样的经历

CPU Hardware Error
byu/BlasterXD222 inlinuxquestions

然后把这个贴子给 OVH 的客服看 你看啊 这货和我一样也炸了啊  人家都说 是 CPU 或者主板出的毛病.
说把 bios 重置了 让机器休息会 就好了.

结果 早上 8 点 发的 TK  

下午三点 客服终于通知 说 CPU 给你换了 主板也给你重置了 机器我们还得再试试..
试到晚上 6 点 我收了个邮件 机器进入到 恢复模式了
还给发了 root 密码 想着 那我进去看看吧 ..
看了下 /var/log 里面木有硬件错误了
改了硬盘启动 把母鸡重启了..
一个小时后 被客服来问了..
机器咋重启了 … 这下尴尬了..
跟他说 我 TM 以为你弄好了..
你要没弄完那你继续弄吧 我等你回复..

这一天就这么 过去了.. 尼玛 到现在还没折腾好..

Our DC Team has been actively working on the server.

网友回复:

注册 笑死

0x99 用了十多年机器 头一次 遇到 CPU 爆炸的情况 希望这次 能给折腾好..

MrJoker 关于到手烤鸡检测硬件这件事。

0x99 还真没见过 cpu 炸的

infplus 他们家的 D1540 多少都有点问题。

ealkeq 问题的关键在于 烤鸡是正常的.. 就是间歇性的抽风..

infplus 太折腾了,不如直接换一台,带着你的硬盘直接过去

0x99 之前看到 mjj 到手恢复硬盘数据,结果

weiai 我之前的 D1540 cpu+ 内存测试必过不去 然后给换机了。手上的 D1540 都换成了 D1541。

注册 这肯定是真 MJJ 说不定里面全是 DJJ

注册 既然如此大的问题,为何不换新机完事?

0x99 中奖机 换了就没了√

mjjok 之前买的二手换电容的 CPU 就是这样,时不时来个指令集出 BUG

infplus 要新机 还得等. 型号比较紧俏. 想着机房一般都有备用件. 所以觉得换配件比换机器 时间来得快一些.

正文完
 0