Task 15521554

Name	hadcm3n_3flj_1940_40_008258617_1
Workunit	8413741
Created	2 Jan 2013, 14:48:16 UTC
Sent	2 Jan 2013, 14:48:52 UTC
Report deadline	3 Apr 2013, 22:16:03 UTC
Received	18 Jan 2013, 22:21:58 UTC
Server state	Over
Outcome	Computation error
Client state	Compute error
Exit status	25 (0x00000019) Unknown error code
Computer ID	1169487
Run time	4 days 11 hours 39 min 15 sec
CPU time	4 days 10 hours 46 min 20 sec
Validate state	Invalid
Credit	6,220.80
Device peak FLOPS	3.29 GFLOPS
Application version	UK Met Office Coupled Model Full Resolution Ocean v6.07 windows_intelx86
Stderr	<core_client_version>7.0.28</core_client_version> <![CDATA[ <message> The drive cannot locate a specific area or track on the disk. (0x19) - exit code 25 (0x19) </message> <stderr_txt> 07:27:46 (6488): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 08:59:12 (7840): No heartbeat from core client for 30 sec - exiting 08:59:13 (7840): No heartbeat from core client for 30 sec - exiting 08:59:14 (7840): No heartbeat from core client for 30 sec - exiting 08:59:15 (7840): No heartbeat from core client for 30 sec - exiting 08:59:16 (7840): No heartbeat from core client for 30 sec - exiting 08:59:17 (7840): No heartbeat from core client for 30 sec - exiting 08:59:18 (7840): No heartbeat from core client for 30 sec - exiting 08:59:19 (7840): No heartbeat from core client for 30 sec - exiting 08:59:20 (7840): No heartbeat from core client for 30 sec - exiting 08:59:21 (7840): No heartbeat from core client for 30 sec - exiting 08:59:22 (7840): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 10:18:33 (5432): No heartbeat from core client for 30 sec - exiting 10:18:34 (5432): No heartbeat from core client for 30 sec - exiting 10:18:35 (5432): No heartbeat from core client for 30 sec - exiting 10:18:36 (5432): No heartbeat from core client for 30 sec - exiting 10:18:37 (5432): No heartbeat from core client for 30 sec - exiting 10:18:38 (5432): No heartbeat from core client for 30 sec - exiting 10:18:39 (5432): No heartbeat from core client for 30 sec - exiting 10:18:40 (5432): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 14:56:50 (8368): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 19:36:05 (7324): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 17:52:55 (7700): No heartbeat from core client for 30 sec - exiting 17:52:56 (7700): No heartbeat from core client for 30 sec - exiting 17:52:57 (7700): No heartbeat from core client for 30 sec - exiting 17:52:58 (7700): No heartbeat from core client for 30 sec - exiting 17:52:59 (7700): No heartbeat from core client for 30 sec - exiting 17:53:00 (7700): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=7448, iMonCtr=1 Model crash detected, will try to restart... 07:31:12 (7808): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=6388, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=6388, iMonCtr=1 Model crash detected, will try to restart... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Called boinc_finish </stderr_txt> ]]>

Latest Trickles Received
Time Sent (UTC)	Host ID	Result ID	Result Name	Timestep	CPU Time (sec)	Average (sec/TS)
18 Jan 2013 17:59:17	1169487	15521554	hadcm3n_3flj_1940_40_008258617_1	518,400	381,154	0.7353
16 Jan 2013 17:42:04	1169487	15521554	hadcm3n_3flj_1940_40_008258617_1	492,480	362,167	0.7354
14 Jan 2013 22:10:52	1169487	15521554	hadcm3n_3flj_1940_40_008258617_1	466,560	343,134	0.7355
13 Jan 2013 20:48:44	1169487	15521554	hadcm3n_3flj_1940_40_008258617_1	440,640	324,041	0.7354
13 Jan 2013 15:20:27	1169487	15521554	hadcm3n_3flj_1940_40_008258617_1	414,720	304,925	0.7353
12 Jan 2013 23:42:57	1169487	15521554	hadcm3n_3flj_1940_40_008258617_1	388,800	285,907	0.7354
12 Jan 2013 19:00:20	1169487	15521554	hadcm3n_3flj_1940_40_008258617_1	362,880	266,818	0.7353
11 Jan 2013 21:06:19	1169487	15521554	hadcm3n_3flj_1940_40_008258617_1	336,960	247,708	0.7351
10 Jan 2013 22:47:28	1169487	15521554	hadcm3n_3flj_1940_40_008258617_1	311,040	228,631	0.7351
09 Jan 2013 23:47:03	1169487	15521554	hadcm3n_3flj_1940_40_008258617_1	285,120	209,567	0.7350
08 Jan 2013 20:55:55	1169487	15521554	hadcm3n_3flj_1940_40_008258617_1	259,200	190,359	0.7344
07 Jan 2013 22:39:33	1169487	15521554	hadcm3n_3flj_1940_40_008258617_1	233,280	171,253	0.7341
06 Jan 2013 20:42:04	1169487	15521554	hadcm3n_3flj_1940_40_008258617_1	207,360	152,207	0.7340
06 Jan 2013 16:02:43	1169487	15521554	hadcm3n_3flj_1940_40_008258617_1	181,440	133,107	0.7336
05 Jan 2013 22:58:51	1169487	15521554	hadcm3n_3flj_1940_40_008258617_1	155,520	114,087	0.7336
05 Jan 2013 18:16:56	1169487	15521554	hadcm3n_3flj_1940_40_008258617_1	129,600	95,033	0.7333
05 Jan 2013 12:55:13	1169487	15521554	hadcm3n_3flj_1940_40_008258617_1	103,680	76,066	0.7337
04 Jan 2013 11:20:51	1169487	15521554	hadcm3n_3flj_1940_40_008258617_1	77,760	57,099	0.7343
03 Jan 2013 19:50:12	1169487	15521554	hadcm3n_3flj_1940_40_008258617_1	51,840	38,098	0.7349
02 Jan 2013 20:31:02	1169487	15521554	hadcm3n_3flj_1940_40_008258617_1	25,920	19,101	0.7369