Task 15485207

Name	hadcm3n_39de_1940_40_008257476_1
Workunit	8412600
Created	20 Dec 2012, 8:28:11 UTC
Sent	20 Dec 2012, 8:28:31 UTC
Report deadline	21 Mar 2013, 15:55:42 UTC
Received	4 Feb 2014, 22:28:38 UTC
Server state	Over
Outcome	Computation error
Client state	Compute error
Exit status	22 (0x00000016) Unknown error code
Computer ID	1158390
Run time	14 days 5 hours 23 min 22 sec
CPU time	12 days 10 hours 27 min 38 sec
Validate state	Invalid
Credit	8,709.12
Device peak FLOPS	2.47 GFLOPS
Application version	UK Met Office Coupled Model Full Resolution Ocean v6.07 windows_intelx86
Stderr	<core_client_version>7.2.33</core_client_version> <![CDATA[ <message> The device does not recognize the command. (0x16) - exit code 22 (0x16) </message> <stderr_txt> CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... 08:38:52 (6904): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... 08:45:52 (2764): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4956, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4956, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4956, iMonCtr=1 Model crash detected, will try to restart... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 23:06:25 (5568): No heartbeat from core client for 30 sec - exiting 23:06:26 (5568): No heartbeat from core client for 30 sec - exiting 23:06:27 (5568): No heartbeat from core client for 30 sec - exiting 23:06:28 (5568): No heartbeat from core client for 30 sec - exiting 23:06:29 (5568): No heartbeat from core client for 30 sec - exiting 23:06:30 (5568): No heartbeat from core client for 30 sec - exiting 23:06:31 (5568): No heartbeat from core client for 30 sec - exiting 23:06:32 (5568): No heartbeat from core client for 30 sec - exiting 23:06:33 (5568): No heartbeat from core client for 30 sec - exiting 23:06:34 (5568): No heartbeat from core client for 30 sec - exiting 23:06:35 (5568): No heartbeat from core client for 30 sec - exiting 23:06:36 (5568): No heartbeat from core client for 30 sec - exiting 23:06:37 (5568): No heartbeat from core client for 30 sec - exiting 23:06:38 (5568): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 20:19:00 (5144): No heartbeat from core client for 30 sec - exiting 20:19:01 (5144): No heartbeat from core client for 30 sec - exiting 20:19:02 (5144): No heartbeat from core client for 30 sec - exiting 20:19:03 (5144): No heartbeat from core client for 30 sec - exiting 20:19:05 (5144): No heartbeat from core client for 30 sec - exiting 20:19:06 (5144): No heartbeat from core client for 30 sec - exiting 20:19:07 (5144): No heartbeat from core client for 30 sec - exiting 20:19:08 (5144): No heartbeat from core client for 30 sec - exiting 20:19:09 (5144): No heartbeat from core client for 30 sec - exiting 20:19:10 (5144): No heartbeat from core client for 30 sec - exiting 20:19:11 (5144): No heartbeat from core client for 30 sec - exiting 20:19:12 (5144): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 03:07:47 (4720): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... 08:52:34 (6368): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 08:53:06 (7016): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... 12:49:24 (6028): No heartbeat from core client for 30 sec - exiting 12:49:25 (6028): No heartbeat from core client for 30 sec - exiting 12:49:26 (6028): No heartbeat from core client for 30 sec - exiting 12:49:27 (6028): No heartbeat from core client for 30 sec - exiting 12:49:28 (6028): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4988, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4988, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4988, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4988, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4988, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4988, iMonCtr=1 Model crash detected, will try to restart... Sorry, too many model crashes! :-( Called boinc_finish </stderr_txt> ]]>

Latest Trickles Received
Time Sent (UTC)	Host ID	Result ID	Result Name	Timestep	CPU Time (sec)	Average (sec/TS)
04 Feb 2014 09:14:09	1158390	15485207	hadcm3n_39de_1940_40_008257476_1	725,760	1,046,026	1.4413
03 Feb 2014 22:17:08	1158390	15485207	hadcm3n_39de_1940_40_008257476_1	699,840	1,009,813	1.4429
03 Feb 2014 12:01:46	1158390	15485207	hadcm3n_39de_1940_40_008257476_1	673,920	973,369	1.4443
03 Feb 2014 00:49:41	1158390	15485207	hadcm3n_39de_1940_40_008257476_1	648,000	936,043	1.4445
02 Feb 2014 14:36:29	1158390	15485207	hadcm3n_39de_1940_40_008257476_1	622,080	899,888	1.4466
02 Feb 2014 05:22:53	1158390	15485207	hadcm3n_39de_1940_40_008257476_1	596,160	863,883	1.4491
02 Feb 2014 03:22:33	1158390	15485207	hadcm3n_39de_1940_40_008257476_1	570,240	827,488	1.4511
02 Feb 2014 03:22:33	1158390	15485207	hadcm3n_39de_1940_40_008257476_1	544,320	789,799	1.4510
30 Jan 2014 15:11:08	1158390	15485207	hadcm3n_39de_1940_40_008257476_1	518,400	751,191	1.4491
30 Jan 2014 15:11:08	1158390	15485207	hadcm3n_39de_1940_40_008257476_1	492,480	713,736	1.4493
21 Jan 2014 09:55:10	1158390	15485207	hadcm3n_39de_1940_40_008257476_1	466,560	675,882	1.4486
20 Jan 2014 08:05:10	1158390	15485207	hadcm3n_39de_1940_40_008257476_1	440,640	638,331	1.4486
19 Jan 2014 12:51:00	1158390	15485207	hadcm3n_39de_1940_40_008257476_1	414,720	600,972	1.4491
18 Jan 2014 13:33:37	1158390	15485207	hadcm3n_39de_1940_40_008257476_1	388,800	563,782	1.4501
23 Nov 2013 10:37:26	1158390	15485207	hadcm3n_39de_1940_40_008257476_1	362,880	526,380	1.4506
22 Nov 2013 22:14:21	1158390	15485207	hadcm3n_39de_1940_40_008257476_1	336,960	487,946	1.4481
22 Nov 2013 10:10:17	1158390	15485207	hadcm3n_39de_1940_40_008257476_1	311,040	449,523	1.4452
13 Apr 2013 20:11:11	1158390	15485207	hadcm3n_39de_1940_40_008257476_1	285,120	411,366	1.4428
13 Apr 2013 05:37:29	1158390	15485207	hadcm3n_39de_1940_40_008257476_1	259,200	373,773	1.4420
12 Apr 2013 02:07:01	1158390	15485207	hadcm3n_39de_1940_40_008257476_1	233,280	334,256	1.4329