Task 13317138

Name	hadcm3n_ygri_1940_40_007432382_0
Workunit	7629885
Created	31 Aug 2011, 19:08:53 UTC
Sent	31 Aug 2011, 19:09:03 UTC
Report deadline	1 Dec 2011, 2:36:14 UTC
Received	13 Sep 2011, 21:07:48 UTC
Server state	Over
Outcome	Computation error
Client state	Compute error
Exit status	22 (0x00000016) Unknown error code
Computer ID	1133594
Run time	7 days 16 hours 56 min 9 sec
CPU time	5 days 11 hours 8 min 19 sec
Validate state	Invalid
Credit	3,110.40
Device peak FLOPS	2.35 GFLOPS
Application version	UK Met Office Coupled Model Full Resolution Ocean v6.07 windows_intelx86
Stderr	<core_client_version>6.10.58</core_client_version> <![CDATA[ <message> The device does not recognize the command. (0x16) - exit code 22 (0x16) </message> <stderr_txt> CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... 03:18:04 (3200): No heartbeat from core client for 30 sec - exiting 03:18:05 (3200): No heartbeat from core client for 30 sec - exiting 03:18:06 (3200): No heartbeat from core client for 30 sec - exiting 03:18:07 (3200): No heartbeat from core client for 30 sec - exiting 03:18:08 (3200): No heartbeat from core client for 30 sec - exiting 03:18:10 (3200): No heartbeat from core client for 30 sec - exiting 03:18:11 (3200): No heartbeat from core client for 30 sec - exiting 03:18:12 (3200): No heartbeat from core client for 30 sec - exiting 03:18:13 (3200): No heartbeat from core client for 30 sec - exiting 03:18:14 (3200): No heartbeat from core client for 30 sec - exiting 03:18:15 (3200): No heartbeat from core client for 30 sec - exiting 03:18:16 (3200): No heartbeat from core client for 30 sec - exiting 03:18:17 (3200): No heartbeat from core client for 30 sec - exiting 03:18:18 (3200): No heartbeat from core client for 30 sec - exiting 03:18:19 (3200): No heartbeat from core client for 30 sec - exiting 03:18:21 (3200): No heartbeat from core client for 30 sec - exiting 03:18:22 (3200): No heartbeat from core client for 30 sec - exiting 03:18:23 (3200): No heartbeat from core client for 30 sec - exiting 03:18:24 (3200): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 03:18:25 (3200): No heartbeat from core client for 30 sec - exiting 03:18:26 (3200): No heartbeat from core client for 30 sec - exiting 03:18:27 (3200): No heartbeat from core client for 30 sec - exiting CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... 12:30:20 (2236): No heartbeat from core client for 30 sec - exiting 12:30:21 (2236): No heartbeat from core client for 30 sec - exiting 12:30:22 (2236): No heartbeat from core client for 30 sec - exiting 12:30:23 (2236): No heartbeat from core client for 30 sec - exiting 12:30:24 (2236): No heartbeat from core client for 30 sec - exiting 12:30:25 (2236): No heartbeat from core client for 30 sec - exiting 12:30:27 (2236): No heartbeat from core client for 30 sec - exiting 12:30:28 (2236): No heartbeat from core client for 30 sec - exiting 12:30:29 (2236): No heartbeat from core client for 30 sec - exiting 12:30:30 (2236): No heartbeat from core client for 30 sec - exiting 12:30:31 (2236): No heartbeat from core client for 30 sec - exiting 12:30:32 (2236): No heartbeat from core client for 30 sec - exiting 12:30:33 (2236): No heartbeat from core client for 30 sec - exiting 12:30:34 (2236): No heartbeat from core client for 30 sec - exiting 12:30:35 (2236): No heartbeat from core client for 30 sec - exiting 12:30:36 (2236): No heartbeat from core client for 30 sec - exiting 12:30:37 (2236): No heartbeat from core client for 30 sec - exiting 12:30:39 (2236): No heartbeat from core client for 30 sec - exiting 12:30:40 (2236): No heartbeat from core client for 30 sec - exiting 12:30:41 (2236): No heartbeat from core client for 30 sec - exiting 12:30:42 (2236): No heartbeat from core client for 30 sec - exiting 12:30:43 (2236): No heartbeat from core client for 30 sec - exiting 12:30:44 (2236): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 12:30:45 (2236): No heartbeat from core client for 30 sec - exiting CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3428, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3428, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3428, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3428, iMonCtr=1 Model crash detected, will try to restart... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3992, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3992, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3992, iMonCtr=1 Model crash detected, will try to restart... Sorry, too many model crashes! :-( Called boinc_finish </stderr_txt> ]]>

Latest Trickles Received
Time Sent (UTC)	Host ID	Result ID	Result Name	Timestep	CPU Time (sec)	Average (sec/TS)
09 Sep 2011 19:54:49	1133594	13317138	hadcm3n_ygri_1940_40_007432382_0	259,200	439,082	1.6940
08 Sep 2011 22:03:37	1133594	13317138	hadcm3n_ygri_1940_40_007432382_0	233,280	395,012	1.6933
08 Sep 2011 04:01:51	1133594	13317138	hadcm3n_ygri_1940_40_007432382_0	207,360	351,252	1.6939
07 Sep 2011 11:10:31	1133594	13317138	hadcm3n_ygri_1940_40_007432382_0	181,440	306,597	1.6898
06 Sep 2011 17:20:28	1133594	13317138	hadcm3n_ygri_1940_40_007432382_0	155,520	262,327	1.6868
05 Sep 2011 19:07:43	1133594	13317138	hadcm3n_ygri_1940_40_007432382_0	129,600	218,495	1.6859
05 Sep 2011 03:19:19	1133594	13317138	hadcm3n_ygri_1940_40_007432382_0	103,680	174,559	1.6836
04 Sep 2011 14:46:52	1133594	13317138	hadcm3n_ygri_1940_40_007432382_0	77,760	131,067	1.6855
04 Sep 2011 02:10:27	1133594	13317138	hadcm3n_ygri_1940_40_007432382_0	51,840	87,456	1.6870
02 Sep 2011 19:29:05	1133594	13317138	hadcm3n_ygri_1940_40_007432382_0	25,920	43,799	1.6898