Task 12734695

Name	hadcm3n_o13n_1900_40_007196758_0
Workunit	7395038
Created	28 Mar 2011, 13:59:08 UTC
Sent	2 Apr 2011, 6:43:52 UTC
Report deadline	2 Jul 2011, 14:11:03 UTC
Received	12 Apr 2011, 22:44:29 UTC
Server state	Over
Outcome	Computation error
Client state	Compute error
Exit status	22 (0x00000016) Unknown error code
Computer ID	968932
Run time	6 days 17 hours 29 min 38 sec
CPU time	4 days 20 hours 51 min 1 sec
Validate state	Invalid
Credit	1,866.24
Device peak FLOPS	2.51 GFLOPS
Application version	UK Met Office Coupled Model Full Resolution Ocean v6.07 windows_intelx86
Stderr	<core_client_version>6.10.58</core_client_version> <![CDATA[ <message> The device does not recognize the command. (0x16) - exit code 22 (0x16) </message> <stderr_txt> Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... 11:07:07 (3344): No heartbeat from core client for 30 sec - exiting 11:07:08 (3344): No heartbeat from core client for 30 sec - exiting 11:07:09 (3344): No heartbeat from core client for 30 sec - exiting 11:07:10 (3344): No heartbeat from core client for 30 sec - exiting 11:07:11 (3344): No heartbeat from core client for 30 sec - exiting 11:07:12 (3344): No heartbeat from core client for 30 sec - exiting 11:07:13 (3344): No heartbeat from core client for 30 sec - exiting 11:07:14 (3344): No heartbeat from core client for 30 sec - exiting 11:07:15 (3344): No heartbeat from core client for 30 sec - exiting 11:07:16 (3344): No heartbeat from core client for 30 sec - exiting 11:07:17 (3344): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... 09:19:00 (3992): No heartbeat from core client for 30 sec - exiting 09:19:01 (3992): No heartbeat from core client for 30 sec - exiting 09:19:02 (3992): No heartbeat from core client for 30 sec - exiting 09:19:03 (3992): No heartbeat from core client for 30 sec - exiting 09:19:04 (3992): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... 10:05:03 (3188): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... 10:02:14 (2112): No heartbeat from core client for 30 sec - exiting 10:02:15 (2112): No heartbeat from core client for 30 sec - exiting 10:02:16 (2112): No heartbeat from core client for 30 sec - exiting 10:02:17 (2112): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=5040, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=5040, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=5040, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=5040, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=5040, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=5040, iMonCtr=1 Model crash detected, will try to restart... Sorry, too many model crashes! :-( Called boinc_finish </stderr_txt> ]]>

Latest Trickles Received
Time Sent (UTC)	Host ID	Result ID	Result Name	Timestep	CPU Time (sec)	Average (sec/TS)
11 Apr 2011 20:13:56	968932	12734695	hadcm3n_o13n_1900_40_007196758_0	155,520	379,366	2.4393
07 Apr 2011 09:33:46	968932	12734695	hadcm3n_o13n_1900_40_007196758_0	129,600	316,294	2.4405
06 Apr 2011 07:00:32	968932	12734695	hadcm3n_o13n_1900_40_007196758_0	103,680	251,780	2.4284
05 Apr 2011 06:44:31	968932	12734695	hadcm3n_o13n_1900_40_007196758_0	77,760	190,368	2.4481
04 Apr 2011 06:59:44	968932	12734695	hadcm3n_o13n_1900_40_007196758_0	51,840	125,941	2.4294
03 Apr 2011 06:25:29	968932	12734695	hadcm3n_o13n_1900_40_007196758_0	25,920	60,278	2.3255