Task 14089295

Name	hadcm3n_ydtq_1940_40_007694589_4
Workunit	7849697
Created	11 Feb 2012, 20:20:59 UTC
Sent	11 Feb 2012, 20:21:51 UTC
Report deadline	13 May 2012, 3:49:02 UTC
Received	5 Mar 2012, 0:16:39 UTC
Server state	Over
Outcome	Computation error
Client state	Compute error
Exit status	193 (0x000000C1) EXIT_SIGNAL
Computer ID	775427
Run time	12 days 0 hours 21 min 15 sec
CPU time	11 days 9 hours 43 min 49 sec
Validate state	Invalid
Credit	6,220.80
Device peak FLOPS	2.32 GFLOPS
Application version	UK Met Office Coupled Model Full Resolution Ocean v6.07 windows_intelx86
Stderr	<core_client_version>6.12.34</core_client_version> <![CDATA[ <message> - exit code 193 (0xc1) </message> <stderr_txt> 19:26:43 (7604): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... 11:29:13 (4008): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=7948, iMonCtr=1 Model crash detected, will try to restart... 16:19:18 (4864): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 08:49:25 (4396): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=6084, iMonCtr=1 Model crash detected, will try to restart... 15:48:26 (4532): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 16:39:10 (2884): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... 09:09:12 (5348): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... 21:17:24 (3296): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 22:18:48 (9688): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... BUFFIN: C I/O Error feof - Unit 63 - Return code = 16 BUFFIN: C I/O Error feof - Unit 64 - Return code = 16 BUFFIN: C I/O Error feof - Unit 65 - Return code = 16 BUFFIN: C I/O Error feof - Unit 66 - Return code = 16 BUFFIN: C I/O Error feof - Unit 67 - Return code = 16 BUFFIN: C I/O Error feof - Unit 68 - Return code = 16 BUFFIN: C I/O Error feof - Unit 69 - Return code = 16 Error converting file to netcdf: dataout/ydtqko.pje7c10 Error converting file to netcdf: dataout/ydtqko.pie7c10 Error converting file to netcdf: dataout/ydtqko.pfe7c10 Error converting file to netcdf: dataout/ydtqka.phe7c10 Error converting file to netcdf: dataout/ydtqka.pge7c10 Error converting file to netcdf: dataout/ydtqka.pee7c10 Error converting file to netcdf: dataout/ydtqka.pde7c10 Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=5840, iMonCtr=1 Model crash detected, will try to restart... 17:55:02 (4864): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=9212, iMonCtr=1 Model crash detected, will try to restart... Suspended CPDN Monitor - Suspend request from BOINC... 08:09:55 (964): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 14:33:22 (11144): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 16:18:06 (2900): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 20:29:07 (6324): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 20:29:08 (6324): No heartbeat from core client for 30 sec - exiting 22:31:51 (6744): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 18:01:23 (7984): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 18:01:24 (7984): No heartbeat from core client for 30 sec - exiting 18:01:25 (7984): No heartbeat from core client for 30 sec - exiting Suspended CPDN Monitor - Suspend request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=5524, iMonCtr=1 Model crash detected, will try to restart... Suspended CPDN Monitor - Suspend request from BOINC... Signal 11 received, exiting... Called boinc_finish </stderr_txt> ]]>

Latest Trickles Received
Time Sent (UTC)	Host ID	Result ID	Result Name	Timestep	CPU Time (sec)	Average (sec/TS)
04 Mar 2012 22:05:57	775427	14089295	hadcm3n_ydtq_1940_40_007694589_4	518,400	985,425	1.9009
03 Mar 2012 23:59:00	775427	14089295	hadcm3n_ydtq_1940_40_007694589_4	492,480	936,911	1.9024
03 Mar 2012 00:35:06	775427	14089295	hadcm3n_ydtq_1940_40_007694589_4	466,560	888,561	1.9045
01 Mar 2012 16:20:42	775427	14089295	hadcm3n_ydtq_1940_40_007694589_4	440,640	839,450	1.9051
01 Mar 2012 03:04:57	775427	14089295	hadcm3n_ydtq_1940_40_007694589_4	414,720	791,009	1.9073
29 Feb 2012 11:44:34	775427	14089295	hadcm3n_ydtq_1940_40_007694589_4	388,800	742,392	1.9094
27 Feb 2012 23:19:17	775427	14089295	hadcm3n_ydtq_1940_40_007694589_4	362,880	692,751	1.9090
27 Feb 2012 00:58:12	775427	14089295	hadcm3n_ydtq_1940_40_007694589_4	336,960	642,451	1.9066
26 Feb 2012 10:45:25	775427	14089295	hadcm3n_ydtq_1940_40_007694589_4	311,040	593,026	1.9066
25 Feb 2012 20:52:36	775427	14089295	hadcm3n_ydtq_1940_40_007694589_4	285,120	544,370	1.9093
24 Feb 2012 20:15:19	775427	14089295	hadcm3n_ydtq_1940_40_007694589_4	259,200	495,464	1.9115
23 Feb 2012 19:29:49	775427	14089295	hadcm3n_ydtq_1940_40_007694589_4	233,280	445,598	1.9101
22 Feb 2012 04:17:55	775427	14089295	hadcm3n_ydtq_1940_40_007694589_4	207,360	397,365	1.9163
21 Feb 2012 06:24:34	775427	14089295	hadcm3n_ydtq_1940_40_007694589_4	181,440	348,826	1.9225
20 Feb 2012 05:47:50	775427	14089295	hadcm3n_ydtq_1940_40_007694589_4	155,520	300,840	1.9344
18 Feb 2012 16:34:21	775427	14089295	hadcm3n_ydtq_1940_40_007694589_4	129,600	251,427	1.9400
16 Feb 2012 23:03:43	775427	14089295	hadcm3n_ydtq_1940_40_007694589_4	103,680	201,527	1.9437
16 Feb 2012 01:30:34	775427	14089295	hadcm3n_ydtq_1940_40_007694589_4	77,760	151,453	1.9477
14 Feb 2012 19:20:20	775427	14089295	hadcm3n_ydtq_1940_40_007694589_4	51,840	101,366	1.9554
13 Feb 2012 18:50:24	775427	14089295	hadcm3n_ydtq_1940_40_007694589_4	25,920	50,857	1.9621