DS8000快速維修手冊
DS8000快速維修手冊
DS8000快速維修手冊
V1.5
1
版本历史:
1.1 增加了如何区分哪一个 LPAR 的 State Saves 的说2006/10/2
增加了收集 AIX Crash Dump 的步骤
1.2 增加了 IBM Publications Center 出版物中心的下2006/12/27
增加了对关闭 Serviceable Event 的解释
修改了关机的步骤,增加了对 DDM 故障类型的
1.4 增加了 64.xx 或以上微码的 HMC 截图 2011-8-30
1.5 重新整理并修订截图,修改了部分内容 2011-9-28
产品手册公网下载地址:
http://www-947.ibm.com/support/entry/portal/Documentation
2
ftp://ftp.software.ibm.com/storage/ds8000/updates/DVD_BUNDLE/
方法二:
使用 CDA4TP 软件下载微码和上传到 HMC,建议使用该软件对同一个版本下载两次,第
二遍该软件将自动对微码文件做 checksum 完整性校验而并不会重复下载。
CDA4TP 软件的下载地址和具体用法:
http://w3.tap.ibm.com/w3ki/display/cda4tp/Home
3
目 录
4
前言
1. 登录 HMC。用户名和密码如下:
用户名:CE
5
4. 正常情况下不应该有 OPEN 的 Service Event:
6
6. 可以看到 Event 所指向的备件号、描述和位置号 Location Code:
CEC 控制器状态不正常就显示打叉
Attention LEDs:
一切正常的登录前界面如下:
7
有 Open Serviceable Event 的典型界面如下,表明有 Open Event,故障灯也亮起了:
8
2. 点击“Log on and Launch the Hardware Management Console web application”登录 HMC。
用户名和密码如下:
用户名:CE
9
5. 如果有 OPEN 的 Serviceable Event,可以看到 Event 的 ID、SRC 号码、首次发现时间和
最后一次的发现时间。可以选择“View Details”查看 Event 的 Detail:
10
三、如何查看DS8000 的微码版本(微码 63.xx或以下版本)
11
4. 快速查看整体 Bundle 版本的办法如下:
1) 打开 Licensed Internal Code Maintenance 下面的 Change Internal Code,选择相应的 Storage
Facility,选择 Update and Recovery Utilities 下面的 Recovery Utilities
12
3) 选择的相应的 SFI,点 Okay
1. 打开 Updates 菜单
2. 选择的相应的 Storage Facility
3. 选择“Display Storage Facility Code Levels”
13
4. 在输出最底部的Code Installation History位置,找到最新日期的 Package: SEA.sfi ,
MTMS:xxxx对应的Bundle VRMF: xx.xx.xx.x 即整个Bundle的版本。下面的例子显示的
Bundle版本是 62.42.95.0。
14
五、如何运行“View Storage Facility State/End-of-Call” (63.xx或以下微码)
15
4. 系统检查会运行 5 至 10 分钟:
16
六、如何运行“View Storage Facility State/End-of-Call” (64.xx或以上微码)
2. 系统检查会运行 5 至 10 分钟:
17
七、如何关闭Serviceable Event (微码 63.xx或以下版本)
注意:
如果 Event 有指向某个 FRU,那么如果其指向的备件通过 HMC 操作的方式被更换,该 Event
是会被自动关闭的。
在人为关闭 Event 之前,必须通过“View Storage Facility State”和“CdaPreVerify”确认机
器的工作状态正常,也可以咨询本地的 Top Gun 或 TSG。
如果误关闭一个未解决的 Event,DS8000 会在周期性自检的时候重新报出。根据不同的部
件,自检一次的周期从半小时到一天不等。
18
2. 输入评语的窗口会自动弹出,可以点击“Close Events”跳过 Comment,直接关闭 Event
3. 结果如下:
19
八、如何关闭Serviceable Event (微码 64.xx或以上版本)
20
5. 结果如下:
九、如何运行CdaPreVerify进行微码升级前的健康检查(微码 63.xx或以下版本)
21
2. 选择相应的 Storage Facility
22
4. 选择 Run CdaPreVerify
5. 点击 OK,出现结果如下。注意仔细观察每一项的结果都是“Passed”,最后总的结果也
是“Passed”
:“Passed full system scan by SFI”
23
十、如何运行CdaPreVerify进行微码升级前的健康检查(微码 64.xx或以上版本)
24
6. 选择 Run CdaPreVerify
CdaPreVerify 大约运行 5-15 分钟(取决于机器配置的大小)
7. 如果 CdaPreVerify 没有检测到故障,顺利通过,会出现以下界面:
25
8. 点击 OK,出现结果如下。注意仔细观察每一项的结果都是“Passed”,最后总的结果也
是“Passed”
:“Passed full system scan by SFI”
26
十一、如何检查RIO的环路状态(微码 63.xx或以下版本)
27
2. 选中第一台 P570 之后,选择“View RIO Topology”
28
十二、如何检查RIO的环路状态(微码 64.xx或以上版本)
29
30
十三、如何收集PE Package(微码 63.xx或以下版本)
31
PE Package 的收集会运行大约 10 分钟:
32
选择“Cancel”继续
7. 打开 Service Focal Point,查看 Open 的 Serviceable Events,会看到一个 SRC 为
“BEB00010”的 Event,就是 Offload PE Package 所产生的:
33
9. 弹出的窗口会列出所有之前生成的 Package 文件,如果机器已经配置了 Call Home(目
的地址为工程师的笔记本上的 ftp server IP),可以选择 CTRL+A 全选文件后,点击 Call
Home.
如果要使用 Offload to Media,根据最终选择介质的不同,文件选择方式有两种:
DVD 方式:使用 CTRL+A 全选所有文件,将随机付送的 DVD 放入 HMC 的 DVD-RAM 中,
点击“Save to DVD”将 PE Package 保存到 DVD 中
U盘:请选择任何一个结尾是problem number.zip的文件就可以正确收集到数据。比如:如果你
的问题号是64,选择任何一个形如****in 64.zip的文件后,点击Offload to media就可以了。
注意: 使用USB设备下载数据的常见问题:
1.USB识别问题
正常情况下,U盘插入后机器前面的USB插孔后,当大家听到3声“嘀、嘀、嘀”后,表明HMC
可以正确识别你的USB设备。
并不是所有类型的USB设备,HMC都支持,我们发现有的USB stick插入后,HMC会hung
大概10分钟,这样的USB就无法使用。
有的U盘插入后,HMC第一次没有反应,拔出后,再插入,HMC变可以正确识别。
另外,HMC前部有2个USB插口,如果你的USB在第一个无法被HMC识别,请试验另外一
个插口。
34
2.收集数据的时候,数据不完整
一般情况下,我们在如下图的界面中选择数据的时候,都是CTRL+A全选,但是我们发现,对于
用U盘收集数据,如果全选的话,只能收集到第一个文件,一般字节很小,不是我们想要的数据。
3.收集到的数据,文件名不正确
正常情况下,数据文件的的后缀应该为*.sslpr.zip和*.pepck.zip,有时候用USB收集的数据扩
展名为*.eed.zip。这个时候,你可以用USB在收集几次,有时候就可以得到正确的文件名。如
果仍旧有问题,你可以在笔记本上打开这个eed.zip文件,确认里面的内容是否正确,如果包含
了正确的数据,直接将该文件rename成正确扩展名即可。
一般情况下,正确的PE pkg大小为几十MB到100多MB,包含如下10个文件:
-------- ---- ---- ----
6460 10-16-08 04:15 collectedCodeLevels.All.2107-931-75DG450.htm
2121 10-16-08 04:15 collectedCodeLevels.All.7978PEN-KDMCVPH.htm
70662 10-16-08 09:29 CasTrace
19962380 10-16-08 09:29 HMCa.unzipthis
4913159 10-16-08 09:29 Lpar0.tar.gz
4633094 10-16-08 09:29 Lpar1.tar.gz
280 10-16-08 09:29 SFI-1.info
7751446 10-16-08 09:26 ctsnap.SF75DG450ESS01.10160925.tar.gz
10492364 10-16-08 09:28 ctsnap.SF75DG450ESS11.10160927.tar.gz
4300987 10-16-08 09:24 ctsnap.localhost.10160923.tar.gz
-------- -------
52132953 10 files
正确的lpar statesave大小为几个MB,包含如何三个文件:
35
280 10-17-08 15:29 SFI-1.info
8051310 10-17-08 15:28 ctsnap.SF75DG450ESS01.10171528.tar.gz
4345654 10-17-08 15:27 ctsnap.localhost.10171527.tar.gz
70 10-17-08 15:33 file0_deactivatedLparsList_1224228404662.log
-------- -------
42896966 9 files
36
3. 选择选择“General PE Package”
37
5. 收集结束后,弹出如下窗口。用 Ctrl-A 键全选所有文件,按“Offload”将所有文件打
包
38
选择“Cancel”继续
39
9. 弹出的窗口会列出所有之前生成的 Package 文件,用 Ctrl-A 全选所有文件:
40
DVD 方式:
也可以选择“Offload to DVD-RAM media”,把数据保存到 HMC 的 DVD 里面。
注意: 使用USB设备下载数据的常见问题:
1.USB识别问题
正常情况下,U盘插入后机器前面的USB插孔后,当大家听到3声“嘀、嘀、嘀”后,表明HMC
可以正确识别你的USB设备。
并不是所有类型的USB设备,HMC都支持,我们发现有的USB stick插入后,HMC会hung
大概10分钟,这样的USB就无法使用。
有的U盘插入后,HMC第一次没有反应,拔出后,再插入,HMC变可以正确识别。
另外,HMC前部有2个USB插口,如果你的USB在第一个无法被HMC识别,请试验另外一
个插口。
2.收集数据的时候,数据不完整
一般情况下,我们在如下图的界面中选择数据的时候,都是CTRL+A全选,但是我们发现,对于
用U盘收集数据,如果全选的话,只能收集到第一个文件,一般字节很小,不是我们想要的数据。
3.收集到的数据,文件名不正确
正常情况下,数据文件的的后缀应该为*.sslpr.zip和*.pepck.zip,有时候用USB收集的数据扩
展名为*.eed.zip。这个时候,你可以用USB在收集几次,有时候就可以得到正确的文件名。如
果仍旧有问题,你可以在笔记本上打开这个eed.zip文件,确认里面的内容是否正确,如果包含
了正确的数据,直接将该文件rename成正确扩展名即可。
一般情况下,正确的PE pkg大小为几十MB到100多MB,包含如下10个文件:
-------- ---- ---- ----
6460 10-16-08 04:15 collectedCodeLevels.All.2107-931-75DG450.htm
2121 10-16-08 04:15 collectedCodeLevels.All.7978PEN-KDMCVPH.htm
70662 10-16-08 09:29 CasTrace
19962380 10-16-08 09:29 HMCa.unzipthis
4913159 10-16-08 09:29 Lpar0.tar.gz
4633094 10-16-08 09:29 Lpar1.tar.gz
280 10-16-08 09:29 SFI-1.info
7751446 10-16-08 09:26 ctsnap.SF75DG450ESS01.10160925.tar.gz
41
10492364 10-16-08 09:28 ctsnap.SF75DG450ESS11.10160927.tar.gz
4300987 10-16-08 09:24 ctsnap.localhost.10160923.tar.gz
-------- -------
52132953 10 files
正确的lpar statesave大小为几个MB,包含如何三个文件:
42
2) 选中相应的 Image 之后,选择“selected”菜单中的“Process LPAR State Saves…”
43
注意:在没有得到 L2/PFE 的批准前,不能点击“Generate State Saves”。
等待 Offload 结束
44
2) 列表中列出了当前保存的所有 ISS DA State Saves,根据 L2/PFE 在 PMH 中的指示,选
择相应的 State Save 文件,点击“offload”
45
剩下的操作,和收集 PE Package 一样,查看 Open 的 Serviceable Events,对相应的 SRC 为
“BEF00020”的 Event 进行“Manage Problem Data”的操作,进而参照 PE package 的方式
通过 DVD 或者 U 盘下载。
46
ESS01 是上面的 P570 控制器
ESS11 是下面的 P570 控制器
47
5. 剩下的操作,和收集 PE Package 一样,查看 Open 的 Serviceable Events,对相应的 SRC
为“BEF00015”的 Event 进行“Manage Problem Data”的操作,进而参照 PE package
的方式通过 U 盘或 DVD 下载。
ftp://testcase.software.ibm.com/ssd/toibm/sharkdumps/
48
十八、如何配置CALL HOME和HMC的RSF(微码 63.xx或以下版本)
选择 1,查看注册的具体记录,Status 的位置必须是数值“2”
、“9”或者“1”。
49
1. 打开 Remote Support,选择“Customize Customer Information”
(在配置 CALL HOME
之前,这一步必须先完成)
50
3. 配置 CALL HOME(Customize Outbound Connectivity)
1) 打开 Remote Support,选择“Customize Outbound Connectivity
2) 勾选“Enable Local System as Call Home Server”
51
最后点击“OK”完成,关闭窗口
4) 如果该电话线是分机,则点击“Modem Configuration…”,打开“Customize Modem
Setting”页,在“Dial Prefix”填写拨号前缀,例如 9 或 0。如果打外线是直拨就不
需要执行这一步
52
7) 点击“Start”开始测试,直到出现“Test Completed Successfully”
,表明连接性测试成功
53
4) 如果是使用客户机房的宽带(VPN 方式),就必须在“Attended Session”栏下点击“Prepare”
按钮,打开 VPN 连接窗口。
54
电话线和 VPN 拨入方式比较:
电话线方式:
配置相对比较简单,外界随时可以拨入;但是连接速度较慢,在首次配置或插拔电话线之
后,需要重启 HMC 才能生效
VPN 拨入方式:
连接速度快一点;每次建立连接,在没有拨入的情况下只能持续很短的一段时间,然后就
会自动中断。另外每次 VPN 拨入,都需要 SSR 到客户现场,在 HMC 上手工建立 VPN 连
接。
此外,对于新装机,必须在首次配置好 VPN Call Home 之后,生成一个 HMC Public Key
并通过 Call Home 传回 IBM 的 VPN 服务器,之后才能实现 VPN 拨入。生成方法见下文
55
4) 弹出的确认窗口将提示接下来要生成一对 public key(for WebSM)和 private key(for
HMC 自己)
。选择 Yes 确定生成 Key。
等待约 1 分钟
56
7) 把滚动条往右边拉,可以看到该 event 的内容。意思是已经为 WebSM 生成了 Public Key,
这是一个提示性的 Event,应该被关闭。
8) 人手将该 Event 关闭。与此同时,HMC 的 Key 会通过 Call Home 自动回传 IBM 的 VPN
服务器
57
选择 1,查看注册的具体记录,Status 的位置必须是数值“2”
、“9”或者“1”。
58
2. 只需要填写“Administrator”页,“System”页和“Account”页不需要填写。带*号的
地方一定要填写
59
3) 勾选“Enable Local System as Call Home Server”
60
最后点击“OK”完成,关闭窗口
5) 如果该电话线是分机,则点击“Modem Configuration…”,打开“Modem Setting”页,
在“Dial Prefix”填写拨号前缀,例如 9 或 0。如果打外线是直拨就不需要执行这一
步
61
6) 如果是使用 VPN Call Home,就打开“Internet VPN”页,勾选“Allow a VPN using an
existing Internet connection”
62
d. Perform the test on each of the listed racks:
i. Select the first rack in the list and click Test Callhome.
ii. When you are prompted to generate a serviceable event with reference code
BEB20010, click Yes.
iii. When the message TestPMR Successful is displayed, make note of the rack serial
number and problem ID, then click OK.
iv. Repeat the test for the remaining racks.
v. Check open SRC BEB20010s and confirm a PMH number has been returned from
RETAIN. This return may take a while.
(Select Service Management > Manage Serviceable Events)
注意: 一定要对每个机柜,包括所有的扩展柜都进行测试。
63
4) 如果是使用客户机房的宽带(VPN 方式),就必须在“Attended Session”栏下点击“Prepare”
按钮,打开 VPN 连接窗口。
64
二十、如何备份HMC的Critical Console Data(微码 63.xx或以下版本)
以下介绍一下手动备份的操作方法:
1. 打开 Licensed Internal Code Maintenance 下面的 HMC Code Upgrade
2. 点击 Backup Critical Console Data
4. 备份将持续 2 至 3 个小时左右。
65
二十一、如何备份HMC的Critical Console Data(微码 64.xx或以上版本)
66
Event 了:
67
5. 提示确认是否关闭故障灯,点 Yes 确定
6. 提示故障灯已经成功关闭,此时面板上的故障灯已经熄灭,点 OK 确定
68
3. 可以看到当前的 Attention LED 处于“on”状态,点“Turn Off All Attention LEDs”按钮
4. 提示确认是否关闭故障灯,点 Yes 确定
69
二十四、如何将DS8000 关闭和加电(微码 63.xx或以下版本)
关机步骤:
正确的关机步骤首先应参考 Infocenter 的 MAP2470,以下步骤仅供参考
1. 首先到机器的后面,确认 Local/Remote 开关处于正常的“Remote” (向上)位置。如果
不是,则拨到 Remote 位置。
2. 在 Service Focal Point 的 Service Utilities 里面,选择相应的“Storage Facility”
3. 在“Selected” 菜单中选择“Manage Power Control…”
70
开机步骤:
1. 先打开主柜的所有 PPS(每个柜子两个)后面的黄色空气开关(拨到“ON”位置),并
检查 UEPO 是否打开,若关闭,请打开,给主柜上电。等待 2 分钟左右,直到两个 PPS
加电完毕之后
2. 打开扩展柜的所有 PPS(每个柜子两个)后面的黄色空气开关(拨到“ON”位置),并
检查 UEPO 是否打开,若关闭,请打开,给主柜上电。等待 2 分钟左右,直到两个 PPS
加电完毕之后
3. 启动 HMC
4. 重复关机步骤 1 和 2, 在弹出的窗口中,首先确认当前的状态“Current State”是“Off”
,
然后选中 Power ON Storage Facility,点按钮 Apply
5. 开机过程将持续 40 分钟左右。
6. 判断开机完毕的依据:
运行“View Storage Facility State/End-of-Call”,确认一切正常。
71
二十五、如何将DS8000 关闭和加电(微码 64.xx或以上版本)
关机步骤:
正确的关机步骤首先应参考 Infocenter 的 MAP2470,以下步骤仅供参考
72
开机步骤:
1. 先打开主柜的所有 PPS(每个柜子两个)后面的黄色空气开关(拨到“ON”位置),并
检查 UEPO 是否打开,若关闭,请打开,给主柜上电。等待 2 分钟左右,直到两个 PPS
加电完毕之后
2. 打开扩展柜的所有 PPS(每个柜子两个)后面的黄色空气开关(拨到“ON”位置),并
检查 UEPO 是否打开,若关闭,请打开,给主柜上电。等待 2 分钟左右,直到两个 PPS
加电完毕之后
3. 启动 HMC
4. 重复关机步骤 1 和 2, 在弹出的窗口中,首先确认当前的状态“Current State”是“Off” ,
然后选中 Power ON Storage Facility,点按钮 Apply
5. 开机过程将持续 40 分钟左右。
6. 判断开机完毕的依据:运行“View Storage Facility State/End-of-Call”,确认一切正常。
二十六、如何查看DDM的微码(微码 63.xx或以下版本)
73
3. 选择“Display DDM Code Levels”
74
二十七、如何查看DDM的微码(微码 64.xx或以上版本)
1. 打开 Updates 菜单
2. 选择的相应的 Storage Facility
3. 选择“Recovery Utilities…”
4. 选择“DDM Utilities”
5. 选择“Display DDM Code Levels”
75
6. 弹出的窗口将列出所有 DDM 的微码版本和相应的位置号:
76
77
二十八、如何退出及关闭HMC(微码 64.xx或以上版本)
1. Logoff HMC
在操作界面右上角,有 Logoff 图样,在完成操作后,需要点击 Logoff 以退出登录
78