Task 13928290

Name	hadcm3n_yfji_1980_40_007683931_0
Workunit	7839018
Created	16 Jan 2012, 8:41:42 UTC
Sent	16 Jan 2012, 8:43:28 UTC
Report deadline	16 Apr 2012, 16:10:39 UTC
Received	18 Feb 2012, 7:13:30 UTC
Server state	Over
Outcome	Computation error
Client state	Compute error
Exit status	22 (0x00000016) Unknown error code
Computer ID	1191470
Run time	12 days 1 hours 39 min 47 sec
CPU time	11 days 21 hours 1 min 30 sec
Validate state	Invalid
Credit	5,909.76
Device peak FLOPS	2.42 GFLOPS
Application version	UK Met Office Coupled Model Full Resolution Ocean v6.07 windows_intelx86
Stderr	<core_client_version>6.12.34</core_client_version> <![CDATA[ <message> The device does not recognize the command. (0x16) - exit code 22 (0x16) </message> <stderr_txt> CPDN Monitor - Quit request from BOINC... 02:09:02 (1416): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... 09:03:34 (2340): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 09:25:28 (900): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 09:25:29 (900): No heartbeat from core client for 30 sec - exiting 09:25:30 (900): No heartbeat from core client for 30 sec - exiting 09:25:31 (900): No heartbeat from core client for 30 sec - exiting 09:25:32 (900): No heartbeat from core client for 30 sec - exiting 09:25:33 (900): No heartbeat from core client for 30 sec - exiting 09:25:34 (900): No heartbeat from core client for 30 sec - exiting 09:25:35 (900): No heartbeat from core client for 30 sec - exiting 09:25:36 (900): No heartbeat from core client for 30 sec - exiting 09:25:37 (900): No heartbeat from core client for 30 sec - exiting 09:25:38 (900): No heartbeat from core client for 30 sec - exiting Suspended CPDN Monitor - Suspend request from BOINC... 11:02:56 (1412): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 11:02:57 (1412): No heartbeat from core client for 30 sec - exiting 11:02:58 (1412): No heartbeat from core client for 30 sec - exiting 11:02:59 (1412): No heartbeat from core client for 30 sec - exiting 11:03:00 (1412): No heartbeat from core client for 30 sec - exiting 11:03:01 (1412): No heartbeat from core client for 30 sec - exiting 11:03:02 (1412): No heartbeat from core client for 30 sec - exiting 11:03:03 (1412): No heartbeat from core client for 30 sec - exiting 11:03:04 (1412): No heartbeat from core client for 30 sec - exiting 11:03:05 (1412): No heartbeat from core client for 30 sec - exiting 11:03:06 (1412): No heartbeat from core client for 30 sec - exiting 05:19:19 (3768): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3532, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3532, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3532, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3532, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3532, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3532, iMonCtr=1 Model crash detected, will try to restart... Sorry, too many model crashes! :-( Called boinc_finish </stderr_txt> ]]>

Latest Trickles Received
Time Sent (UTC)	Host ID	Result ID	Result Name	Timestep	CPU Time (sec)	Average (sec/TS)
28 Jan 2012 04:23:38	1191470	13928290	hadcm3n_yfji_1980_40_007683931_0	492,480	996,284	2.0230
27 Jan 2012 13:33:49	1191470	13928290	hadcm3n_yfji_1980_40_007683931_0	466,560	943,670	2.0226
26 Jan 2012 22:47:42	1191470	13928290	hadcm3n_yfji_1980_40_007683931_0	440,640	891,062	2.0222
26 Jan 2012 08:11:19	1191470	13928290	hadcm3n_yfji_1980_40_007683931_0	414,720	838,665	2.0222
25 Jan 2012 17:26:31	1191470	13928290	hadcm3n_yfji_1980_40_007683931_0	388,800	786,139	2.0220
25 Jan 2012 03:15:37	1191470	13928290	hadcm3n_yfji_1980_40_007683931_0	362,880	733,711	2.0219
24 Jan 2012 12:01:57	1191470	13928290	hadcm3n_yfji_1980_40_007683931_0	336,960	680,989	2.0210
23 Jan 2012 20:50:37	1191470	13928290	hadcm3n_yfji_1980_40_007683931_0	311,040	628,204	2.0197
23 Jan 2012 05:44:33	1191470	13928290	hadcm3n_yfji_1980_40_007683931_0	285,120	575,447	2.0183
22 Jan 2012 14:37:21	1191470	13928290	hadcm3n_yfji_1980_40_007683931_0	259,200	522,721	2.0167
21 Jan 2012 23:13:56	1191470	13928290	hadcm3n_yfji_1980_40_007683931_0	233,280	470,031	2.0149
21 Jan 2012 08:20:39	1191470	13928290	hadcm3n_yfji_1980_40_007683931_0	207,360	417,626	2.0140
20 Jan 2012 17:01:45	1191470	13928290	hadcm3n_yfji_1980_40_007683931_0	181,440	365,278	2.0132
20 Jan 2012 02:08:20	1191470	13928290	hadcm3n_yfji_1980_40_007683931_0	155,520	312,583	2.0099
19 Jan 2012 11:22:18	1191470	13928290	hadcm3n_yfji_1980_40_007683931_0	129,600	259,956	2.0058
18 Jan 2012 20:34:38	1191470	13928290	hadcm3n_yfji_1980_40_007683931_0	103,680	207,373	2.0001
18 Jan 2012 05:43:30	1191470	13928290	hadcm3n_yfji_1980_40_007683931_0	77,760	154,695	1.9894
17 Jan 2012 15:39:56	1191470	13928290	hadcm3n_yfji_1980_40_007683931_0	51,840	102,211	1.9717
17 Jan 2012 00:36:25	1191470	13928290	hadcm3n_yfji_1980_40_007683931_0	25,920	49,887	1.9247