博客网 >

PC集群节点更换主板后无法启动问题解决
 
  大约有十天了吧。集群的节点node063一直无法正常启动,具体表现为:在外置的显示器和键盘接到节点上时,可以正常启动,但通过KVM方式无法启动。怀疑是KVM网络套件出现了问题,和node062互换硬盘之后,node062能启动,而node063故障依旧。由此得知,硬盘和文件系统应该没有问题。
  几天过去了,蓝快的维修人员始终没来。集群只有这一个节点没有被用来运行大型作业。轰鸣的机房也没有因此减少一点噪音。机房外面的春天的脚步很慢,走走停停,甚至有时后退几步。
  西北部的沙尘暴随着气旋东移,让这里首先出现了扬沙天气,遍天黄土,夹杂着大雪,把松原披上了一层灰被。路很滑,IBM售后服务机构蓝快(BlueX)那小子在两点半的时候,坐着慢悠悠的大客到了松原。
  蓝快工程师带来了一块主板,把node063的主板给换了。结果,白扯。为什么这么说呢,因为,启动倒是能启动,启动到了挂载NFS文件系统的时候,停住了。我接到了电话,被通知需要到IBM官方网站下载X336服务器(节点硬件类型)的DOS驱动,经查,为Broadcom网卡,但没找到DOS平台驱动,只找到了Linux驱动。
  一路上,打了大约10多个哧溜滑,到了机房。
  node063启动过程中,到了挂接NFS的的时候就停住了。问题可能出在网卡上,可是更换硬盘之后反而能启动,那么网络中的硬件肯定没问题,一定是与网络相关的一些配置文件有问题,所以才在涉及到NFS的时候,有一些不匹配的信息问题,无法启动。
  其实每个节点启动的时候,都是先通过管理节点的XCAT套件进行管理的。主要相关的参数就是网络。
  在管理节点(mgmt)的/opt/xcat/etc下面,有个mac.tab文件,这个文件让我想起了什么。网卡是集成的,更换了主板,当然网卡的MAC地址就变了。
  于是,在/opt/xcat/etc/mac.tab中,更改了node063那一行:
  ……
  node060 00:0D:60:9A:41:78
  node061 00:0D:60:9A:5A:0A
  node062 00:0D:60:9A:3C:3C
  node063 00:11:25:A9:96:3A
  node064 00:0D:60:9A:58:86
  ionode01
  ionode02 00:11:25:40:45:BF
  ……
  然后,蓝快工程师叨咕什么绑定dhcp协议,根据丹澜兄弟的那本残缺不全的笔记本,在mgmt上做了如下工作:
  makedhcp node063
  nodeset node063 stage3
  手动给node063加电,在mgmt上启动node063:
  rpower node063 boot
  这样古捣之后,节点node063启动正常。
  额外收获:
  如果是某个节点(node063)硬盘坏了更换了硬盘,需要做下列工作:
  nodeset node063 install
  rpower node063 boot
  makesshgkh node063
<< Could not open d... / 不做学生已八年 >>

专题推荐

不平凡的水果世界

不平凡的水果世界

平凡的水果世界,平凡中的不平凡。 今朝看水果是水果 ,看水果还是水果 ,看水果已不是水果。这境界,谁人可比?在不平凡的水果世界里,仁者见仁,智者见智。

中国春节的那些习俗

中国春节的那些习俗

正月是农历新年的开始,人们往往将它看作是新的一年年运好坏的兆示期。所以,过年的时候“禁忌”特别多。当然,各个地方的风俗习惯不一样,过年的禁忌也是不一样的。

评论
0/200
表情 验证码:

大猫

  • 文章总数0
  • 画报总数0
  • 画报点击数0
  • 文章点击数0
个人排行
        博文分类
        日期归档