Task 15515962

Name	hadcm3n_yi1g_1980_40_008279933_0
Workunit	8431068
Created	29 Dec 2012, 12:36:06 UTC
Sent	29 Dec 2012, 22:10:20 UTC
Report deadline	31 Mar 2013, 5:37:31 UTC
Received	20 Mar 2013, 5:58:28 UTC
Server state	Over
Outcome	Computation error
Client state	Compute error
Exit status	22 (0x00000016) Unknown error code
Computer ID	1022927
Run time	14 days 4 hours 51 min 26 sec
CPU time	8 days 22 hours 11 min 6 sec
Validate state	Invalid
Credit	4,354.56
Device peak FLOPS	2.36 GFLOPS
Application version	UK Met Office Coupled Model Full Resolution Ocean v6.07 windows_intelx86
Stderr	<core_client_version>6.10.18</core_client_version> <![CDATA[ <message> The device does not recognize the command. (0x16) - exit code 22 (0x16) </message> <stderr_txt> CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... 22:10:28 (4556): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... 19:12:08 (4204): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... 19:07:33 (4584): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4584, iMonCtr=1 Model crash detected, will try to restart... 19:10:37 (4408): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... 19:15:35 (5264): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... 19:12:49 (4268): No heartbeat from core client for 30 sec - exiting 19:12:50 (4268): No heartbeat from core client for 30 sec - exiting 19:12:51 (4268): No heartbeat from core client for 30 sec - exiting 19:12:52 (4268): No heartbeat from core client for 30 sec - exiting 19:12:53 (4268): No heartbeat from core client for 30 sec - exiting 19:12:54 (4268): No heartbeat from core client for 30 sec - exiting 19:12:55 (4268): No heartbeat from core client for 30 sec - exiting 19:12:56 (4268): No heartbeat from core client for 30 sec - exiting 19:12:57 (4268): No heartbeat from core client for 30 sec - exiting 19:12:58 (4268): No heartbeat from core client for 30 sec - exiting 19:12:59 (4268): No heartbeat from core client for 30 sec - exiting 19:13:00 (4268): No heartbeat from core client for 30 sec - exiting 19:13:01 (4268): No heartbeat from core client for 30 sec - exiting 19:13:02 (4268): No heartbeat from core client for 30 sec - exiting 19:13:03 (4268): No heartbeat from core client for 30 sec - exiting 19:13:04 (4268): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 19:10:22 (2716): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... 11:58:22 (6124): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... 22:33:57 (5124): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4824, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3584, iMonCtr=1 Model crash detected, will try to restart... 00:03:10 (6068): No heartbeat from core client for 30 sec - exiting 00:03:11 (6068): No heartbeat from core client for 30 sec - exiting 00:03:12 (6068): No heartbeat from core client for 30 sec - exiting 00:03:13 (6068): No heartbeat from core client for 30 sec - exiting 00:03:14 (6068): No heartbeat from core client for 30 sec - exiting 00:03:15 (6068): No heartbeat from core client for 30 sec - exiting 00:03:16 (6068): No heartbeat from core client for 30 sec - exiting 00:03:17 (6068): No heartbeat from core client for 30 sec - exiting 00:03:18 (6068): No heartbeat from core client for 30 sec - exiting 00:03:19 (6068): No heartbeat from core client for 30 sec - exiting 00:03:20 (6068): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=2228, iMonCtr=1 Model crash detected, will try to restart... 19:09:13 (4532): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... 18:56:35 (4100): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4136, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4136, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4136, iMonCtr=1 Model crash detected, will try to restart... CPDN Monitor - Quit request from BOINC... 19:16:21 (4272): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 19:16:22 (4272): No heartbeat from core client for 30 sec - exiting CPDN Monitor - Quit request from BOINC... 19:10:44 (5652): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=5400, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=5400, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=5400, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=5400, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=5400, iMonCtr=1 Model crash detected, will try to restart... 12:14:26 (5184): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4060, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4060, iMonCtr=1 Model crash detected, will try to restart... Sorry, too many model crashes! :-( Called boinc_finish </stderr_txt> ]]>

Latest Trickles Received
Time Sent (UTC)	Host ID	Result ID	Result Name	Timestep	CPU Time (sec)	Average (sec/TS)
19 Mar 2013 04:33:04	1022927	15515962	hadcm3n_yi1g_1980_40_008279933_0	362,880	743,537	2.0490
18 Mar 2013 06:53:10	1022927	15515962	hadcm3n_yi1g_1980_40_008279933_0	336,960	686,663	2.0378
17 Mar 2013 11:49:39	1022927	15515962	hadcm3n_yi1g_1980_40_008279933_0	311,040	634,316	2.0393
16 Mar 2013 13:40:11	1022927	15515962	hadcm3n_yi1g_1980_40_008279933_0	285,120	580,438	2.0358
15 Mar 2013 04:22:18	1022927	15515962	hadcm3n_yi1g_1980_40_008279933_0	259,200	522,588	2.0162
12 Mar 2013 06:05:47	1022927	15515962	hadcm3n_yi1g_1980_40_008279933_0	233,280	468,231	2.0072
27 Feb 2013 00:39:52	1022927	15515962	hadcm3n_yi1g_1980_40_008279933_0	207,360	414,765	2.0002
23 Feb 2013 19:41:55	1022927	15515962	hadcm3n_yi1g_1980_40_008279933_0	181,440	363,710	2.0046
22 Feb 2013 13:30:14	1022927	15515962	hadcm3n_yi1g_1980_40_008279933_0	155,520	311,559	2.0033
21 Feb 2013 06:44:13	1022927	15515962	hadcm3n_yi1g_1980_40_008279933_0	129,600	258,715	1.9963
15 Feb 2013 10:07:24	1022927	15515962	hadcm3n_yi1g_1980_40_008279933_0	103,680	209,088	2.0167
14 Feb 2013 05:50:06	1022927	15515962	hadcm3n_yi1g_1980_40_008279933_0	77,760	160,264	2.0610
18 Jan 2013 06:24:29	1022927	15515962	hadcm3n_yi1g_1980_40_008279933_0	51,840	107,007	2.0642
16 Jan 2013 00:10:24	1022927	15515962	hadcm3n_yi1g_1980_40_008279933_0	25,920	54,595	2.1063