Task 13572145

Name	hadcm3n_yly6_1900_40_007525239_3
Workunit	7722714
Created	31 Oct 2011, 8:30:09 UTC
Sent	31 Oct 2011, 8:38:20 UTC
Report deadline	30 Jan 2012, 16:05:31 UTC
Received	2 Dec 2011, 4:32:39 UTC
Server state	Over
Outcome	Computation error
Client state	Compute error
Exit status	25 (0x00000019) Unknown error code
Computer ID	1096394
Run time	15 days 22 hours 44 min 47 sec
CPU time	15 days 8 hours 15 min 50 sec
Validate state	Invalid
Credit	6,531.84
Device peak FLOPS	2.11 GFLOPS
Application version	UK Met Office Coupled Model Full Resolution Ocean v6.07 windows_intelx86
Stderr	<core_client_version>6.12.34</core_client_version> <![CDATA[ <message> The drive cannot locate a specific area or track on the disk. (0x19) - exit code 25 (0x19) </message> <stderr_txt> CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=6984, iMonCtr=1 Model crash detected, will try to restart... CPDN Monitor - Quit request from BOINC... 07:16:48 (1056): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... 07:20:30 (3076): No heartbeat from core client for 30 sec - exiting 07:20:31 (3076): No heartbeat from core client for 30 sec - exiting 07:20:32 (3076): No heartbeat from core client for 30 sec - exiting 07:20:33 (3076): No heartbeat from core client for 30 sec - exiting 07:20:35 (3076): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 07:20:36 (3076): No heartbeat from core client for 30 sec - exiting 07:20:37 (3076): No heartbeat from core client for 30 sec - exiting 07:20:38 (3076): No heartbeat from core client for 30 sec - exiting Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=40488, iMonCtr=1 Model crash detected, will try to restart... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=5044, iMonCtr=1 Model crash detected, will try to restart... 21:49:28 (5420): No heartbeat from core client for 30 sec - exiting 21:49:29 (5420): No heartbeat from core client for 30 sec - exiting 21:49:30 (5420): No heartbeat from core client for 30 sec - exiting 21:49:31 (5420): No heartbeat from core client for 30 sec - exiting 21:49:32 (5420): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 21:49:33 (5420): No heartbeat from core client for 30 sec - exiting Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=2336, iMonCtr=1 Model crash detected, will try to restart... 14:02:40 (2956): No heartbeat from core client for 30 sec - exiting 14:02:41 (2956): No heartbeat from core client for 30 sec - exiting 14:02:42 (2956): No heartbeat from core client for 30 sec - exiting 14:02:43 (2956): No heartbeat from core client for 30 sec - exiting 14:02:44 (2956): No heartbeat from core client for 30 sec - exiting 14:02:45 (2956): No heartbeat from core client for 30 sec - exiting 14:02:47 (2956): No heartbeat from core client for 30 sec - exiting 14:02:48 (2956): No heartbeat from core client for 30 sec - exiting 14:02:49 (2956): No heartbeat from core client for 30 sec - exiting 14:02:50 (2956): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 14:02:51 (2956): No heartbeat from core client for 30 sec - exiting CPDN Monitor - Quit request from BOINC... BUFFIN: C I/O Error feof - Unit 63 - Return code = 16 BUFFIN: C I/O Error feof - Unit 64 - Return code = 16 BUFFIN: C I/O Error feof - Unit 65 - Return code = 16 BUFFIN: C I/O Error feof - Unit 66 - Return code = 16 BUFFIN: C I/O Error feof - Unit 67 - Return code = 16 BUFFIN: C I/O Error feof - Unit 68 - Return code = 16 BUFFIN: C I/O Error feof - Unit 69 - Return code = 16 Error converting file to netcdf: dataout/yly6ko.pjb3c10 Error converting file to netcdf: dataout/yly6ko.pib3c10 Error converting file to netcdf: dataout/yly6ko.pfb3c10 Error converting file to netcdf: dataout/yly6ka.phb3c10 Error converting file to netcdf: dataout/yly6ka.pgb3c10 Error converting file to netcdf: dataout/yly6ka.peb3c10 Error converting file to netcdf: dataout/yly6ka.pdb3c10 CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... 09:11:22 (5200): No heartbeat from core client for 30 sec - exiting 09:11:23 (5200): No heartbeat from core client for 30 sec - exiting 09:11:24 (5200): No heartbeat from core client for 30 sec - exiting 09:11:25 (5200): No heartbeat from core client for 30 sec - exiting 09:11:26 (5200): No heartbeat from core client for 30 sec - exiting 09:11:27 (5200): No heartbeat from core client for 30 sec - exiting 09:11:28 (5200): No heartbeat from core client for 30 sec - exiting 09:11:29 (5200): No heartbeat from core client for 30 sec - exiting 09:11:30 (5200): No heartbeat from core client for 30 sec - exiting 09:11:31 (5200): No heartbeat from core client for 30 sec - exiting 09:11:33 (5200): No heartbeat from core client for 30 sec - exiting 09:11:34 (5200): No heartbeat from core client for 30 sec - exiting 09:11:35 (5200): No heartbeat from core client for 30 sec - exiting 09:11:36 (5200): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... 13:54:53 (5900): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... BUFFIN: C I/O Error feof - Unit 63 - Return code = 16 BUFFIN: C I/O Error feof - Unit 64 - Return code = 16 BUFFIN: C I/O Error feof - Unit 65 - Return code = 16 BUFFIN: C I/O Error feof - Unit 66 - Return code = 16 BUFFIN: C I/O Error feof - Unit 67 - Return code = 16 BUFFIN: C I/O Error feof - Unit 68 - Return code = 16 BUFFIN: C I/O Error feof - Unit 69 - Return code = 16 CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=6104, iMonCtr=1 Model crash detected, will try to restart... Called boinc_finish </stderr_txt> ]]>

Latest Trickles Received
Time Sent (UTC)	Host ID	Result ID	Result Name	Timestep	CPU Time (sec)	Average (sec/TS)
01 Dec 2011 14:07:48	1096394	13572145	hadcm3n_yly6_1900_40_007525239_3	544,320	1,308,782	2.4044
30 Nov 2011 18:09:21	1096394	13572145	hadcm3n_yly6_1900_40_007525239_3	518,400	1,240,757	2.3934
29 Nov 2011 23:03:29	1096394	13572145	hadcm3n_yly6_1900_40_007525239_3	492,480	1,174,603	2.3851
28 Nov 2011 07:05:05	1096394	13572145	hadcm3n_yly6_1900_40_007525239_3	466,560	1,109,148	2.3773
25 Nov 2011 23:22:12	1096394	13572145	hadcm3n_yly6_1900_40_007525239_3	440,640	1,042,661	2.3662
25 Nov 2011 04:19:48	1096394	13572145	hadcm3n_yly6_1900_40_007525239_3	414,720	976,184	2.3538
24 Nov 2011 09:41:50	1096394	13572145	hadcm3n_yly6_1900_40_007525239_3	388,800	910,769	2.3425
23 Nov 2011 09:12:59	1096394	13572145	hadcm3n_yly6_1900_40_007525239_3	362,880	848,439	2.3381
21 Nov 2011 01:11:38	1096394	13572145	hadcm3n_yly6_1900_40_007525239_3	336,960	787,360	2.3367
19 Nov 2011 16:40:48	1096394	13572145	hadcm3n_yly6_1900_40_007525239_3	311,040	724,036	2.3278
15 Nov 2011 18:32:30	1096394	13572145	hadcm3n_yly6_1900_40_007525239_3	285,120	661,413	2.3198
15 Nov 2011 18:32:30	1096394	13572145	hadcm3n_yly6_1900_40_007525239_3	259,200	599,987	2.3148
15 Nov 2011 18:32:30	1096394	13572145	hadcm3n_yly6_1900_40_007525239_3	233,280	539,193	2.3114
15 Nov 2011 18:32:30	1096394	13572145	hadcm3n_yly6_1900_40_007525239_3	207,360	480,396	2.3167
08 Nov 2011 08:03:16	1096394	13572145	hadcm3n_yly6_1900_40_007525239_3	181,440	420,145	2.3156
07 Nov 2011 14:22:15	1096394	13572145	hadcm3n_yly6_1900_40_007525239_3	155,520	357,769	2.3005
06 Nov 2011 20:16:01	1096394	13572145	hadcm3n_yly6_1900_40_007525239_3	129,600	295,867	2.2829
05 Nov 2011 16:00:37	1096394	13572145	hadcm3n_yly6_1900_40_007525239_3	103,680	237,017	2.2860
02 Nov 2011 13:46:19	1096394	13572145	hadcm3n_yly6_1900_40_007525239_3	77,760	179,229	2.3049
01 Nov 2011 20:35:19	1096394	13572145	hadcm3n_yly6_1900_40_007525239_3	51,840	119,467	2.3045