Task 13019165

Name	hadcm3n_t029_1940_40_007313502_1
Workunit	7510932
Created	28 Jun 2011, 11:01:12 UTC
Sent	28 Jun 2011, 11:01:25 UTC
Report deadline	27 Sep 2011, 18:28:36 UTC
Received	8 Aug 2011, 9:20:46 UTC
Server state	Over
Outcome	Computation error
Client state	Compute error
Exit status	193 (0x000000C1) EXIT_SIGNAL
Computer ID	1098372
Run time	21 days 21 hours 18 min 11 sec
CPU time	20 days 0 hours 44 min 39 sec
Validate state	Invalid
Credit	6,220.80
Device peak FLOPS	2.07 GFLOPS
Application version	UK Met Office Coupled Model Full Resolution Ocean v6.07 windows_intelx86
Stderr	<core_client_version>6.10.58</core_client_version> <![CDATA[ <message> - exit code 193 (0xc1) </message> <stderr_txt> 08:25:56 (1796): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3772, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4088, iMonCtr=1 Model crash detected, will try to restart... 09:26:00 (2512): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=2104, iMonCtr=1 Model crash detected, will try to restart... Suspended CPDN Monitor - Suspend request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4240, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4908, iMonCtr=1 Model crash detected, will try to restart... Suspended CPDN Monitor - Suspend request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=2596, iMonCtr=1 Model crash detected, will try to restart... 09:14:32 (956): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 09:16:43 (3956): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 09:16:45 (3956): No heartbeat from core client for 30 sec - exiting 08:52:28 (4492): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3996, iMonCtr=1 Model crash detected, will try to restart... 09:09:34 (1332): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 09:09:35 (1332): No heartbeat from core client for 30 sec - exiting 11:00:44 (3392): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4212, iMonCtr=1 Model crash detected, will try to restart... Suspended CPDN Monitor - Suspend request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=212, iMonCtr=1 Model crash detected, will try to restart... CPDN Monitor - Quit request from BOINC... 09:08:42 (5876): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 09:08:44 (5876): No heartbeat from core client for 30 sec - exiting Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3780, iMonCtr=1 Model crash detected, will try to restart... Suspended CPDN Monitor - Suspend request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4904, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=2752, iMonCtr=1 Model crash detected, will try to restart... 09:08:56 (4244): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4868, iMonCtr=1 Model crash detected, will try to restart... Suspended CPDN Monitor - Suspend request from BOINC... Signal 11 received, exiting... Called boinc_finish </stderr_txt> ]]>

Latest Trickles Received
Time Sent (UTC)	Host ID	Result ID	Result Name	Timestep	CPU Time (sec)	Average (sec/TS)
08 Aug 2011 08:22:27	1098372	13019165	hadcm3n_t029_1940_40_007313502_1	518,400	1,730,659	3.3385
05 Aug 2011 15:45:19	1098372	13019165	hadcm3n_t029_1940_40_007313502_1	492,480	1,638,905	3.3279
03 Aug 2011 12:05:22	1098372	13019165	hadcm3n_t029_1940_40_007313502_1	466,560	1,551,049	3.3244
01 Aug 2011 07:23:13	1098372	13019165	hadcm3n_t029_1940_40_007313502_1	440,640	1,464,780	3.3242
29 Jul 2011 12:21:49	1098372	13019165	hadcm3n_t029_1940_40_007313502_1	414,720	1,378,167	3.3231
26 Jul 2011 15:29:15	1098372	13019165	hadcm3n_t029_1940_40_007313502_1	388,800	1,291,711	3.3223
25 Jul 2011 21:58:37	1098372	13019165	hadcm3n_t029_1940_40_007313502_1	362,880	1,205,845	3.3230
25 Jul 2011 19:04:46	1098372	13019165	hadcm3n_t029_1940_40_007313502_1	336,960	1,119,633	3.3227
25 Jul 2011 17:59:36	1098372	13019165	hadcm3n_t029_1940_40_007313502_1	311,040	1,032,333	3.3190
25 Jul 2011 15:44:13	1098372	13019165	hadcm3n_t029_1940_40_007313502_1	285,120	946,045	3.3181
25 Jul 2011 13:06:25	1098372	13019165	hadcm3n_t029_1940_40_007313502_1	259,200	860,723	3.3207
25 Jul 2011 13:06:25	1098372	13019165	hadcm3n_t029_1940_40_007313502_1	233,280	775,362	3.3237
25 Jul 2011 13:06:24	1098372	13019165	hadcm3n_t029_1940_40_007313502_1	207,360	690,086	3.3280
10 Jul 2011 14:54:11	1098372	13019165	hadcm3n_t029_1940_40_007313502_1	181,440	604,692	3.3327
09 Jul 2011 12:06:27	1098372	13019165	hadcm3n_t029_1940_40_007313502_1	155,520	517,119	3.3251
08 Jul 2011 02:26:29	1098372	13019165	hadcm3n_t029_1940_40_007313502_1	129,600	430,276	3.3200
07 Jul 2011 18:42:15	1098372	13019165	hadcm3n_t029_1940_40_007313502_1	103,680	345,019	3.3277
05 Jul 2011 16:12:24	1098372	13019165	hadcm3n_t029_1940_40_007313502_1	77,760	259,875	3.3420
04 Jul 2011 14:52:47	1098372	13019165	hadcm3n_t029_1940_40_007313502_1	51,840	173,688	3.3505
30 Jun 2011 14:28:54	1098372	13019165	hadcm3n_t029_1940_40_007313502_1	25,920	87,225	3.3652