Task 13350426

Name	hadcm3n_o69x_1940_40_007444015_1
Workunit	7641518
Created	9 Sep 2011, 1:21:39 UTC
Sent	9 Sep 2011, 7:44:48 UTC
Report deadline	9 Dec 2011, 15:11:59 UTC
Received	14 Oct 2011, 16:21:48 UTC
Server state	Over
Outcome	Computation error
Client state	Compute error
Exit status	22 (0x00000016) Unknown error code
Computer ID	1168658
Run time	12 days 17 hours 1 min 21 sec
CPU time	10 days 3 hours 36 min 12 sec
Validate state	Invalid
Credit	4,043.52
Device peak FLOPS	2.30 GFLOPS
Application version	UK Met Office Coupled Model Full Resolution Ocean v6.07 windows_intelx86
Stderr	<core_client_version>6.12.34</core_client_version> <![CDATA[ <message> The device does not recognize the command. (0x16) - exit code 22 (0x16) </message> <stderr_txt> Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... 09:23:22 (5192): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... 09:38:10 (5404): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... 11:09:21 (4684): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... 12:31:56 (3944): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... 13:36:36 (5188): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... 02:04:53 (1556): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... 16:20:13 (1556): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... 00:00:11 (3272): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... 10:45:48 (5844): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 10:45:49 (5844): No heartbeat from core client for 30 sec - exiting 10:45:50 (5844): No heartbeat from core client for 30 sec - exiting 10:45:51 (5844): No heartbeat from core client for 30 sec - exiting 10:45:52 (5844): No heartbeat from core client for 30 sec - exiting 10:45:53 (5844): No heartbeat from core client for 30 sec - exiting 10:45:54 (5844): No heartbeat from core client for 30 sec - exiting 10:45:55 (5844): No heartbeat from core client for 30 sec - exiting 10:45:56 (5844): No heartbeat from core client for 30 sec - exiting 10:45:57 (5844): No heartbeat from core client for 30 sec - exiting 10:45:58 (5844): No heartbeat from core client for 30 sec - exiting 10:47:11 (4812): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4612, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4612, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4612, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4612, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4612, iMonCtr=1 Model crash detected, will try to restart... 18:20:42 (4612): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=6100, iMonCtr=1 Model crash detected, will try to restart... Sorry, too many model crashes! :-( Called boinc_finish </stderr_txt> ]]>

Latest Trickles Received
Time Sent (UTC)	Host ID	Result ID	Result Name	Timestep	CPU Time (sec)	Average (sec/TS)
29 Sep 2011 09:03:14	1168658	13350426	hadcm3n_o69x_1940_40_007444015_1	336,960	852,398	2.5297
27 Sep 2011 21:51:09	1168658	13350426	hadcm3n_o69x_1940_40_007444015_1	311,040	786,317	2.5280
26 Sep 2011 13:48:07	1168658	13350426	hadcm3n_o69x_1940_40_007444015_1	285,120	716,790	2.5140
24 Sep 2011 03:33:39	1168658	13350426	hadcm3n_o69x_1940_40_007444015_1	259,200	647,109	2.4966
22 Sep 2011 21:05:01	1168658	13350426	hadcm3n_o69x_1940_40_007444015_1	233,280	578,545	2.4800
20 Sep 2011 15:57:48	1168658	13350426	hadcm3n_o69x_1940_40_007444015_1	207,360	513,642	2.4771
19 Sep 2011 09:58:56	1168658	13350426	hadcm3n_o69x_1940_40_007444015_1	181,440	445,011	2.4527
16 Sep 2011 19:32:15	1168658	13350426	hadcm3n_o69x_1940_40_007444015_1	155,520	375,279	2.4131
15 Sep 2011 15:36:50	1168658	13350426	hadcm3n_o69x_1940_40_007444015_1	129,600	305,623	2.3582
14 Sep 2011 08:53:02	1168658	13350426	hadcm3n_o69x_1940_40_007444015_1	103,680	236,458	2.2807
12 Sep 2011 21:41:31	1168658	13350426	hadcm3n_o69x_1940_40_007444015_1	77,760	165,624	2.1299
11 Sep 2011 13:32:43	1168658	13350426	hadcm3n_o69x_1940_40_007444015_1	51,840	101,288	1.9539
10 Sep 2011 13:07:06	1168658	13350426	hadcm3n_o69x_1940_40_007444015_1	25,920	50,877	1.9628