Task 16645172

Name	hadcm3n_8f70_1980_40_008729111_1
Workunit	8875089
Created	20 May 2014, 16:28:34 UTC
Sent	20 May 2014, 16:29:35 UTC
Report deadline	19 Aug 2014, 23:56:46 UTC
Received	28 May 2014, 12:37:44 UTC
Server state	Over
Outcome	Computation error
Client state	Compute error
Exit status	22 (0x00000016) Unknown error code
Computer ID	1324672
Run time	3 days 21 hours 49 min 21 sec
CPU time	3 days 14 hours 49 min 15 sec
Validate state	Invalid
Credit	3,732.48
Device peak FLOPS	3.61 GFLOPS
Application version	UK Met Office Coupled Model Full Resolution Ocean v6.07 windows_intelx86
Stderr	<core_client_version>7.0.64</core_client_version> <![CDATA[ <message> The device does not recognize the command. (0x16) - exit code 22 (0x16) </message> <stderr_txt> 20:30:29 (6984): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 20:32:00 (6324): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... 21:51:28 (4856): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... 11:28:55 (4648): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 15:20:17 (6720): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 15:21:27 (1880): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 16:04:52 (4988): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 16:10:02 (4712): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 16:15:30 (6976): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 19:52:19 (892): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... 21:18:07 (4244): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 21:53:33 (5704): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... 20:31:39 (7808): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 20:36:59 (3128): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... 10:36:12 (10212): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 10:39:20 (9896): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... BUFFOUT: C I/O Error - Return code = 32 Model crashed: WRITDUMP: BAD BUFFOUT OF DATA tmp/pipe_dummy 2048 Signal 11 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=7460, iMonCtr=1 Model crash detected, will try to restart... Signal 11 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=7460, iMonCtr=1 Model crash detected, will try to restart... Signal 11 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=7460, iMonCtr=1 Model crash detected, will try to restart... Signal 11 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=7460, iMonCtr=1 Model crash detected, will try to restart... Signal 11 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=7460, iMonCtr=1 Model crash detected, will try to restart... Sorry, too many model crashes! :-( Called boinc_finish </stderr_txt> ]]>

Latest Trickles Received
Time Sent (UTC)	Host ID	Result ID	Result Name	Timestep	CPU Time (sec)	Average (sec/TS)
27 May 2014 13:07:20	1324672	16645172	hadcm3n_8f70_1980_40_008729111_1	311,040	310,374	0.9979
26 May 2014 14:34:41	1324672	16645172	hadcm3n_8f70_1980_40_008729111_1	285,120	284,363	0.9973
26 May 2014 00:51:33	1324672	16645172	hadcm3n_8f70_1980_40_008729111_1	259,200	257,832	0.9947
25 May 2014 12:12:08	1324672	16645172	hadcm3n_8f70_1980_40_008729111_1	233,280	231,412	0.9920
25 May 2014 01:15:05	1324672	16645172	hadcm3n_8f70_1980_40_008729111_1	207,360	205,221	0.9897
23 May 2014 11:31:00	1324672	16645172	hadcm3n_8f70_1980_40_008729111_1	181,440	179,205	0.9877
22 May 2014 18:12:05	1324672	16645172	hadcm3n_8f70_1980_40_008729111_1	155,520	152,914	0.9832
22 May 2014 10:25:27	1324672	16645172	hadcm3n_8f70_1980_40_008729111_1	129,600	127,523	0.9840
21 May 2014 23:48:19	1324672	16645172	hadcm3n_8f70_1980_40_008729111_1	103,680	102,193	0.9857
21 May 2014 19:09:32	1324672	16645172	hadcm3n_8f70_1980_40_008729111_1	77,760	76,708	0.9865
21 May 2014 10:56:34	1324672	16645172	hadcm3n_8f70_1980_40_008729111_1	51,840	51,357	0.9907
21 May 2014 00:29:01	1324672	16645172	hadcm3n_8f70_1980_40_008729111_1	25,920	25,644	0.9894