Task 16025504

Name	hadcm3n_84sh_1980_40_008464165_0
Workunit	8615004
Created	19 Sep 2013, 14:38:22 UTC
Sent	21 Sep 2013, 6:45:14 UTC
Report deadline	21 Dec 2013, 14:12:25 UTC
Received	7 Oct 2013, 18:32:55 UTC
Server state	Over
Outcome	Computation error
Client state	Compute error
Exit status	22 (0x00000016) Unknown error code
Computer ID	1294023
Run time	16 days 8 hours 3 min 42 sec
CPU time	15 days 20 hours 2 min 22 sec
Validate state	Invalid
Credit	10,575.36
Device peak FLOPS	3.14 GFLOPS
Application version	UK Met Office Coupled Model Full Resolution Ocean v6.07 windows_intelx86
Stderr	<core_client_version>7.0.64</core_client_version> <![CDATA[ <message> The device does not recognize the command. (0x16) - exit code 22 (0x16) </message> <stderr_txt> Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 09:04:39 (1712): No heartbeat from core client for 30 sec - exiting 09:04:40 (1712): No heartbeat from core client for 30 sec - exiting 09:04:41 (1712): No heartbeat from core client for 30 sec - exiting 09:04:42 (1712): No heartbeat from core client for 30 sec - exiting 09:04:44 (1712): No heartbeat from core client for 30 sec - exiting 09:04:45 (1712): No heartbeat from core client for 30 sec - exiting 09:04:46 (1712): No heartbeat from core client for 30 sec - exiting 09:04:47 (1712): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 09:04:48 (1712): No heartbeat from core client for 30 sec - exiting 09:07:09 (3744): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4964, iMonCtr=1 Model crash detected, will try to restart... 13:13:44 (3148): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4656, iMonCtr=1 Model crash detected, will try to restart... CPDN Monitor - Quit request from BOINC... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=796, iMonCtr=1 Model crash detected, will try to restart... CPDN Monitor - Quit request from BOINC... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4772, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4772, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4772, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4772, iMonCtr=1 Model crash detected, will try to restart... Sorry, too many model crashes! :-( Called boinc_finish 14:31:53 (4520): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... BUFFIN: C I/O Error feof - Unit 116 - Return code = 16 Model crashed: REPLANCA :I/O ERROR tmp/pipe_dummy 2048 BUFFIN: C I/O Error feof - Unit 116 - Return code = 16 Model crashed: REPLANCA :I/O ERROR tmp/pipe_dummy 2048 BUFFIN: C I/O Error feof - Unit 116 - Return code = 16 Model crashed: REPLANCA :I/O ERROR tmp/pipe_dummy 2048 BUFFIN: C I/O Error feof - Unit 116 - Return code = 16 Model crashed: REPLANCA :I/O ERROR tmp/pipe_dummy 2048 BUFFIN: C I/O Error feof - Unit 116 - Return code = 16 Model crashed: REPLANCA :I/O ERROR tmp/pipe_dummy 2048 BUFFIN: C I/O Error feof - Unit 116 - Return code = 16 Model crashed: REPLANCA :I/O ERROR tmp/pipe_dummy 2048 Sorry, too many model crashes! :-( Called boinc_finish </stderr_txt> ]]>

Latest Trickles Received
Time Sent (UTC)	Host ID	Result ID	Result Name	Timestep	CPU Time (sec)	Average (sec/TS)
07 Oct 2013 13:24:09	1294023	16025504	hadcm3n_84sh_1980_40_008464165_0	881,280	1,355,378	1.5380
07 Oct 2013 01:30:10	1294023	16025504	hadcm3n_84sh_1980_40_008464165_0	855,360	1,312,986	1.5350
06 Oct 2013 13:42:31	1294023	16025504	hadcm3n_84sh_1980_40_008464165_0	829,440	1,270,570	1.5318
06 Oct 2013 01:45:55	1294023	16025504	hadcm3n_84sh_1980_40_008464165_0	803,520	1,228,195	1.5285
05 Oct 2013 13:56:33	1294023	16025504	hadcm3n_84sh_1980_40_008464165_0	777,600	1,185,800	1.5249
05 Oct 2013 02:06:08	1294023	16025504	hadcm3n_84sh_1980_40_008464165_0	751,680	1,143,483	1.5212
04 Oct 2013 13:46:22	1294023	16025504	hadcm3n_84sh_1980_40_008464165_0	725,760	1,100,640	1.5165
04 Oct 2013 01:47:43	1294023	16025504	hadcm3n_84sh_1980_40_008464165_0	699,840	1,058,045	1.5118
03 Oct 2013 13:18:49	1294023	16025504	hadcm3n_84sh_1980_40_008464165_0	673,920	1,015,130	1.5063
03 Oct 2013 01:22:48	1294023	16025504	hadcm3n_84sh_1980_40_008464165_0	648,000	972,650	1.5010
02 Oct 2013 12:28:33	1294023	16025504	hadcm3n_84sh_1980_40_008464165_0	622,080	929,726	1.4945
02 Oct 2013 00:19:10	1294023	16025504	hadcm3n_84sh_1980_40_008464165_0	596,160	887,657	1.4890
01 Oct 2013 11:27:08	1294023	16025504	hadcm3n_84sh_1980_40_008464165_0	570,240	848,170	1.4874
30 Sep 2013 22:26:04	1294023	16025504	hadcm3n_84sh_1980_40_008464165_0	544,320	806,294	1.4813
30 Sep 2013 09:25:35	1294023	16025504	hadcm3n_84sh_1980_40_008464165_0	518,400	764,937	1.4756
29 Sep 2013 22:35:30	1294023	16025504	hadcm3n_84sh_1980_40_008464165_0	492,480	726,410	1.4750
29 Sep 2013 11:44:53	1294023	16025504	hadcm3n_84sh_1980_40_008464165_0	466,560	687,807	1.4742
29 Sep 2013 00:56:11	1294023	16025504	hadcm3n_84sh_1980_40_008464165_0	440,640	649,103	1.4731
28 Sep 2013 14:13:31	1294023	16025504	hadcm3n_84sh_1980_40_008464165_0	414,720	610,750	1.4727
28 Sep 2013 03:47:30	1294023	16025504	hadcm3n_84sh_1980_40_008464165_0	388,800	573,503	1.4751