Task 15219449

Name	hadcm3n_zkjl_1880_40_008026401_3
Workunit	8181515
Created	1 Sep 2012, 5:18:28 UTC
Sent	1 Sep 2012, 5:27:24 UTC
Report deadline	1 Dec 2012, 12:54:35 UTC
Received	23 Sep 2012, 17:42:10 UTC
Server state	Over
Outcome	Computation error
Client state	Compute error
Exit status	22 (0x00000016) Unknown error code
Computer ID	1181321
Run time	22 days 6 hours 24 min 4 sec
CPU time	20 days 4 hours 17 min 38 sec
Validate state	Invalid
Credit	12,130.56
Device peak FLOPS	2.28 GFLOPS
Application version	UK Met Office Coupled Model Full Resolution Ocean v6.07 windows_intelx86
Stderr	<core_client_version>7.0.28</core_client_version> <![CDATA[ <message> The device does not recognize the command. (0x16) - exit code 22 (0x16) </message> <stderr_txt> Suspended CPDN Monitor - Suspend request from BOINC... 01:29:10 (4108): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 01:29:11 (4108): No heartbeat from core client for 30 sec - exiting CPDN Monitor - Quit request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3120, iMonCtr=1 Model crash detected, will try to restart... 19:17:28 (4692): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 21:31:08 (4652): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3952, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3952, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3952, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3952, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3952, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3952, iMonCtr=1 Model crash detected, will try to restart... Suspended CPDN Monitor - Suspend request from BOINC... 16:57:29 (3408): No heartbeat from core client for 30 sec - exiting 16:57:31 (3408): No heartbeat from core client for 30 sec - exiting 16:57:32 (3408): No heartbeat from core client for 30 sec - exiting 16:57:33 (3408): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 16:57:34 (3408): No heartbeat from core client for 30 sec - exiting 16:57:35 (3408): No heartbeat from core client for 30 sec - exiting 16:57:36 (3408): No heartbeat from core client for 30 sec - exiting 16:57:37 (3408): No heartbeat from core client for 30 sec - exiting 16:57:38 (3408): No heartbeat from core client for 30 sec - exiting 16:57:39 (3408): No heartbeat from core client for 30 sec - exiting 16:57:40 (3408): No heartbeat from core client for 30 sec - exiting 16:57:41 (3408): No heartbeat from core client for 30 sec - exiting 16:57:42 (3408): No heartbeat from core client for 30 sec - exiting 16:57:43 (3408): No heartbeat from core client for 30 sec - exiting 16:57:44 (3408): No heartbeat from core client for 30 sec - exiting 16:57:45 (3408): No heartbeat from core client for 30 sec - exiting 16:57:46 (3408): No heartbeat from core client for 30 sec - exiting 16:57:47 (3408): No heartbeat from core client for 30 sec - exiting 17:18:51 (856): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 17:18:52 (856): No heartbeat from core client for 30 sec - exiting 17:18:53 (856): No heartbeat from core client for 30 sec - exiting 17:18:54 (856): No heartbeat from core client for 30 sec - exiting 17:18:55 (856): No heartbeat from core client for 30 sec - exiting CPDN Monitor - Quit request from BOINC... 19:03:53 (3520): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=880, iMonCtr=1 Model crash detected, will try to restart... 18:56:59 (4264): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3608, iMonCtr=1 Model crash detected, will try to restart... Suspended CPDN Monitor - Suspend request from BOINC... 11:20:37 (3660): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 11:20:39 (3660): No heartbeat from core client for 30 sec - exiting 11:20:40 (3660): No heartbeat from core client for 30 sec - exiting 11:20:41 (3660): No heartbeat from core client for 30 sec - exiting 11:20:42 (3660): No heartbeat from core client for 30 sec - exiting Model crashed: REPLANCA: PP HEADERS ON ANCILLARY FILE DO NOT MATCH tmp/pipe_dummy 2048 Model crashed: REPLANCA: PP HEADERS ON ANCILLARY FILE DO NOT MATCH tmp/pipe_dummy 2048 Model crashed: REPLANCA: PP HEADERS ON ANCILLARY FILE DO NOT MATCH tmp/pipe_dummy 2048 Model crashed: REPLANCA: PP HEADERS ON ANCILLARY FILE DO NOT MATCH tmp/pipe_dummy 2048 Model crashed: REPLANCA: PP HEADERS ON ANCILLARY FILE DO NOT MATCH tmp/pipe_dummy 2048 Model crashed: REPLANCA: PP HEADERS ON ANCILLARY FILE DO NOT MATCH tmp/pipe_dummy 2048 Sorry, too many model crashes! :-( Called boinc_finish </stderr_txt> ]]>

Latest Trickles Received
Time Sent (UTC)	Host ID	Result ID	Result Name	Timestep	CPU Time (sec)	Average (sec/TS)
23 Sep 2012 16:33:23	1181321	15219449	hadcm3n_zkjl_1880_40_008026401_3	1,010,880	1,743,718	1.7250
23 Sep 2012 01:59:40	1181321	15219449	hadcm3n_zkjl_1880_40_008026401_3	984,960	1,693,989	1.7199
22 Sep 2012 11:53:33	1181321	15219449	hadcm3n_zkjl_1880_40_008026401_3	959,040	1,645,698	1.7160
21 Sep 2012 21:45:14	1181321	15219449	hadcm3n_zkjl_1880_40_008026401_3	933,120	1,598,502	1.7131
21 Sep 2012 08:02:41	1181321	15219449	hadcm3n_zkjl_1880_40_008026401_3	907,200	1,551,263	1.7099
20 Sep 2012 18:33:44	1181321	15219449	hadcm3n_zkjl_1880_40_008026401_3	881,280	1,503,824	1.7064
20 Sep 2012 05:05:46	1181321	15219449	hadcm3n_zkjl_1880_40_008026401_3	855,360	1,456,869	1.7032
19 Sep 2012 15:39:43	1181321	15219449	hadcm3n_zkjl_1880_40_008026401_3	829,440	1,410,190	1.7002
19 Sep 2012 03:21:47	1181321	15219449	hadcm3n_zkjl_1880_40_008026401_3	803,520	1,363,797	1.6973
18 Sep 2012 12:46:21	1181321	15219449	hadcm3n_zkjl_1880_40_008026401_3	777,600	1,316,498	1.6930
17 Sep 2012 23:18:10	1181321	15219449	hadcm3n_zkjl_1880_40_008026401_3	751,680	1,269,025	1.6883
17 Sep 2012 09:55:28	1181321	15219449	hadcm3n_zkjl_1880_40_008026401_3	725,760	1,222,473	1.6844
16 Sep 2012 19:39:52	1181321	15219449	hadcm3n_zkjl_1880_40_008026401_3	699,840	1,175,268	1.6793
16 Sep 2012 05:33:45	1181321	15219449	hadcm3n_zkjl_1880_40_008026401_3	673,920	1,127,702	1.6733
15 Sep 2012 15:34:04	1181321	15219449	hadcm3n_zkjl_1880_40_008026401_3	648,000	1,078,875	1.6649
15 Sep 2012 01:35:57	1181321	15219449	hadcm3n_zkjl_1880_40_008026401_3	622,080	1,030,874	1.6571
14 Sep 2012 12:13:21	1181321	15219449	hadcm3n_zkjl_1880_40_008026401_3	596,160	984,530	1.6515
13 Sep 2012 22:34:35	1181321	15219449	hadcm3n_zkjl_1880_40_008026401_3	570,240	937,266	1.6436
13 Sep 2012 08:52:09	1181321	15219449	hadcm3n_zkjl_1880_40_008026401_3	544,320	889,441	1.6340
12 Sep 2012 19:32:31	1181321	15219449	hadcm3n_zkjl_1880_40_008026401_3	518,400	841,532	1.6233