Task 13287860

Name	hadcm3n_p2i4_1940_40_007420072_1
Workunit	7617707
Created	24 Aug 2011, 21:08:56 UTC
Sent	24 Aug 2011, 21:09:15 UTC
Report deadline	24 Nov 2011, 4:36:26 UTC
Received	3 Nov 2011, 20:15:44 UTC
Server state	Over
Outcome	Computation error
Client state	Compute error
Exit status	193 (0x000000C1) EXIT_SIGNAL
Computer ID	1040680
Run time	9 days 9 hours 15 min 27 sec
CPU time	9 days 9 hours 15 min 27 sec
Validate state	Invalid
Credit	6,220.80
Device peak FLOPS	2.60 GFLOPS
Application version	UK Met Office Coupled Model Full Resolution Ocean v6.07 windows_intelx86
Stderr	<core_client_version>6.2.28</core_client_version> <![CDATA[ <message> - exit code 193 (0xc1) </message> <stderr_txt> CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... 17:24:29 (11224): No heartbeat from core client for 30 sec - exiting 17:24:30 (11224): No heartbeat from core client for 30 sec - exiting 17:24:31 (11224): No heartbeat from core client for 30 sec - exiting 17:24:33 (11224): No heartbeat from core client for 30 sec - exiting 17:24:34 (11224): No heartbeat from core client for 30 sec - exiting 17:24:35 (11224): No heartbeat from core client for 30 sec - exiting 17:24:36 (11224): No heartbeat from core client for 30 sec - exiting 17:24:37 (11224): No heartbeat from core client for 30 sec - exiting 17:24:38 (11224): No heartbeat from core client for 30 sec - exiting 17:24:39 (11224): No heartbeat from core client for 30 sec - exiting 17:24:40 (11224): No heartbeat from core client for 30 sec - exiting 17:24:41 (11224): No heartbeat from core client for 30 sec - exiting 17:24:42 (11224): No heartbeat from core client for 30 sec - exiting 17:24:43 (11224): No heartbeat from core client for 30 sec - exiting 17:24:44 (11224): No heartbeat from core client for 30 sec - exiting 17:24:45 (11224): No heartbeat from core client for 30 sec - exiting 17:24:46 (11224): No heartbeat from core client for 30 sec - exiting 17:24:47 (11224): No heartbeat from core client for 30 sec - exiting 17:24:49 (11224): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 22:40:31 (416): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... BUFFIN: C I/O Error feof - Unit 63 - Return code = 16 BUFFIN: C I/O Error feof - Unit 64 - Return code = 16 BUFFIN: C I/O Error feof - Unit 65 - Return code = 16 BUFFIN: C I/O Error feof - Unit 66 - Return code = 16 BUFFIN: C I/O Error feof - Unit 67 - Return code = 16 BUFFIN: C I/O Error feof - Unit 68 - Return code = 16 BUFFIN: C I/O Error feof - Unit 69 - Return code = 16 Error converting file to netcdf: dataout/p2i4ko.pje1c10 Error converting file to netcdf: dataout/p2i4ko.pie1c10 Error converting file to netcdf: dataout/p2i4ko.pfe1c10 Error converting file to netcdf: dataout/p2i4ka.phe1c10 Error converting file to netcdf: dataout/p2i4ka.pge1c10 Error converting file to netcdf: dataout/p2i4ka.pee1c10 Error converting file to netcdf: dataout/p2i4ka.pde1c10 Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=5232, iMonCtr=1 Model crash detected, will try to restart... CPDN Monitor - Quit request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=5864, iMonCtr=1 Model crash detected, will try to restart... CPDN Monitor - Quit request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=2188, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=5924, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4328, iMonCtr=1 Model crash detected, will try to restart... 12:04:10 (2216): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=2424, iMonCtr=1 Model crash detected, will try to restart... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=5820, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=1292, iMonCtr=1 Model crash detected, will try to restart... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=5744, iMonCtr=1 Model crash detected, will try to restart... 12:06:07 (5932): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Signal 11 received, exiting... Called boinc_finish </stderr_txt> ]]>

Latest Trickles Received
Time Sent (UTC)	Host ID	Result ID	Result Name	Timestep	CPU Time (sec)	Average (sec/TS)
02 Nov 2011 20:32:38	1040680	13287860	hadcm3n_p2i4_1940_40_007420072_1	518,400	810,918	1.5643
31 Oct 2011 19:37:03	1040680	13287860	hadcm3n_p2i4_1940_40_007420072_1	492,480	769,537	1.5626
31 Oct 2011 19:00:57	1040680	13287860	hadcm3n_p2i4_1940_40_007420072_1	466,560	726,686	1.5575
31 Oct 2011 18:29:19	1040680	13287860	hadcm3n_p2i4_1940_40_007420072_1	440,640	687,095	1.5593
31 Oct 2011 16:44:20	1040680	13287860	hadcm3n_p2i4_1940_40_007420072_1	414,720	647,604	1.5615
31 Oct 2011 15:20:35	1040680	13287860	hadcm3n_p2i4_1940_40_007420072_1	388,800	606,886	1.5609
31 Oct 2011 15:20:35	1040680	13287860	hadcm3n_p2i4_1940_40_007420072_1	362,880	567,773	1.5646
31 Oct 2011 15:20:35	1040680	13287860	hadcm3n_p2i4_1940_40_007420072_1	336,960	527,028	1.5641
31 Oct 2011 15:20:35	1040680	13287860	hadcm3n_p2i4_1940_40_007420072_1	311,040	485,265	1.5601
18 Oct 2011 22:28:19	1040680	13287860	hadcm3n_p2i4_1940_40_007420072_1	285,120	443,997	1.5572
17 Oct 2011 01:09:03	1040680	13287860	hadcm3n_p2i4_1940_40_007420072_1	259,200	402,948	1.5546
16 Oct 2011 01:10:50	1040680	13287860	hadcm3n_p2i4_1940_40_007420072_1	233,280	362,630	1.5545
12 Oct 2011 21:57:37	1040680	13287860	hadcm3n_p2i4_1940_40_007420072_1	207,360	322,293	1.5543
11 Oct 2011 01:14:57	1040680	13287860	hadcm3n_p2i4_1940_40_007420072_1	181,440	282,413	1.5565
10 Oct 2011 02:48:08	1040680	13287860	hadcm3n_p2i4_1940_40_007420072_1	155,520	241,177	1.5508
07 Oct 2011 22:43:08	1040680	13287860	hadcm3n_p2i4_1940_40_007420072_1	129,600	199,463	1.5391
05 Oct 2011 19:39:57	1040680	13287860	hadcm3n_p2i4_1940_40_007420072_1	103,680	159,385	1.5373
03 Oct 2011 18:21:50	1040680	13287860	hadcm3n_p2i4_1940_40_007420072_1	77,760	120,298	1.5470
03 Oct 2011 04:02:35	1040680	13287860	hadcm3n_p2i4_1940_40_007420072_1	51,840	79,866	1.5406
27 Sep 2011 10:59:35	1040680	13287860	hadcm3n_p2i4_1940_40_007420072_1	25,920	39,545	1.5257