Task 15466547

Name	hadcm3n_zbj1_1880_40_008245328_3
Workunit	8400452
Created	29 Nov 2012, 15:29:52 UTC
Sent	29 Nov 2012, 15:30:21 UTC
Report deadline	28 Feb 2013, 22:57:32 UTC
Received	13 Dec 2012, 18:33:40 UTC
Server state	Over
Outcome	Computation error
Client state	Compute error
Exit status	22 (0x00000016) Unknown error code
Computer ID	1255454
Run time	12 days 5 hours 57 min 18 sec
CPU time	10 days 18 hours 52 min 57 sec
Validate state	Invalid
Credit	9,953.28
Device peak FLOPS	2.79 GFLOPS
Application version	UK Met Office Coupled Model Full Resolution Ocean v6.07 i686-pc-linux-gnu
Stderr	<core_client_version>7.0.27</core_client_version> <![CDATA[ <message> process exited with code 22 (0x16, -234) </message> <stderr_txt> Suspended CPDN Monitor - Suspend request from BOINC... 19:49:28 (1350): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 19:50:14 (5207): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 20:01:44 (5309): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 20:11:24 (5425): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 20:14:31 (5545): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 20:15:37 (5585): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 20:19:06 (5608): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 20:21:53 (5654): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 20:24:41 (5694): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 20:28:04 (5733): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 20:28:50 (5770): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 20:33:58 (5812): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 20:38:32 (5871): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 20:39:18 (5911): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 20:40:05 (5944): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 20:43:00 (5962): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 20:45:02 (5997): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 20:45:44 (6028): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 20:47:26 (6046): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 20:49:27 (6074): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 20:51:24 (6104): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 20:53:36 (6131): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 20:55:30 (6204): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 20:57:29 (6233): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 20:58:46 (6258): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 21:00:24 (6295): No heartbeat from core client for 30 sec - exiting Suspended CPDN Monitor - No 'heartbeat' from BOINC... 21:01:40 (6318): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 21:03:57 (6340): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 21:05:45 (6374): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... SIGSEGV: segmentation violation Stack trace (11 frames): /var/lib/boinc-client/projects/climateprediction.net/hadcm3n_um_6.07_i686-pc-linux-gnu(boinc_catch_signal+0x6f)[0x840da8f] [0xb7792400] /lib/i386-linux-gnu/libm.so.6(powf+0x22)[0xb7757852] /var/lib/boinc-client/projects/climateprediction.net/hadcm3n_um_6.07_i686-pc-linux-gnu[0x82eb979] /var/lib/boinc-client/projects/climateprediction.net/hadcm3n_um_6.07_i686-pc-linux-gnu[0x80c3732] /var/lib/boinc-client/projects/climateprediction.net/hadcm3n_um_6.07_i686-pc-linux-gnu[0x807c8af] /var/lib/boinc-client/projects/climateprediction.net/hadcm3n_um_6.07_i686-pc-linux-gnu[0x837e9f4] /var/lib/boinc-client/projects/climateprediction.net/hadcm3n_um_6.07_i686-pc-linux-gnu[0x839982e] /var/lib/boinc-client/projects/climateprediction.net/hadcm3n_um_6.07_i686-pc-linux-gnu[0x838f8b7] /var/lib/boinc-client/projects/climateprediction.net/hadcm3n_um_6.07_i686-pc-linux-gnu[0x839bdf8] /lib/i386-linux-gnu/libc.so.6(__libc_start_main+0xf3)[0xb75994d3] Exiting... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=1407, iMonCtr=1 Model crash detected, will try to restart... BUFFIN: Read Failed: No such file or directory BUFFIN: C I/O Error feof - Unit 63 - Return code = 1 BUFFIN: Read Failed: No such file or directory BUFFIN: C I/O Error feof - Unit 64 - Return code = 1 BUFFIN: Read Failed: No such file or directory BUFFIN: C I/O Error feof - Unit 65 - Return code = 1 BUFFIN: Read Failed: No such file or directory BUFFIN: C I/O Error feof - Unit 66 - Return code = 1 BUFFIN: Read Failed: No such file or directory BUFFIN: C I/O Error feof - Unit 67 - Return code = 1 BUFFIN: Read Failed: No such file or directory BUFFIN: C I/O Error feof - Unit 68 - Return code = 1 BUFFIN: Read Failed: No such file or directory BUFFIN: C I/O Error feof - Unit 69 - Return code = 1 CPDN Monitor - Quit request from BOINC... BUFFIN: Read Failed: No such file or directory BUFFIN: C I/O Error feof - Unit 63 - Return code = 1 BUFFIN: Read Failed: No such file or directory BUFFIN: C I/O Error feof - Unit 64 - Return code = 1 BUFFIN: Read Failed: No such file or directory BUFFIN: C I/O Error feof - Unit 65 - Return code = 1 BUFFIN: Read Failed: No such file or directory BUFFIN: C I/O Error feof - Unit 66 - Return code = 1 BUFFIN: Read Failed: No such file or directory BUFFIN: C I/O Error feof - Unit 67 - Return code = 1 BUFFIN: Read Failed: No such file or directory BUFFIN: C I/O Error feof - Unit 68 - Return code = 1 BUFFIN: Read Failed: No such file or directory BUFFIN: C I/O Error feof - Unit 69 - Return code = 1 Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... Model crashed: ATM_DYN : INVALID THETA DETECTED. tmp/pipe_dummy 2048 Model crashed: ATM_DYN : INVALID THETA DETECTED. tmp/pipe_dummy 2048 Model crashed: ATM_DYN : INVALID THETA DETECTED. tmp/pipe_dummy 2048 Model crashed: ATM_DYN : INVALID THETA DETECTED. tmp/pipe_dummy 2048 Model crashed: ATM_DYN : INVALID THETA DETECTED. tmp/pipe_dummy 2048 Model crashed: ATM_DYN : INVALID THETA DETECTED. tmp/pipe_dummy 2048 Sorry, too many model crashes! :-( Called boinc_finish </stderr_txt> ]]>

Latest Trickles Received
Time Sent (UTC)	Host ID	Result ID	Result Name	Timestep	CPU Time (sec)	Average (sec/TS)
13 Dec 2012 18:35:42	1255454	15466547	hadcm3n_zbj1_1880_40_008245328_3	829,440	989,987	1.1936
13 Dec 2012 18:35:42	1255454	15466547	hadcm3n_zbj1_1880_40_008245328_3	803,520	959,239	1.1938
13 Dec 2012 18:35:42	1255454	15466547	hadcm3n_zbj1_1880_40_008245328_3	777,600	927,827	1.1932
13 Dec 2012 18:35:42	1255454	15466547	hadcm3n_zbj1_1880_40_008245328_3	751,680	894,789	1.1904
13 Dec 2012 18:35:42	1255454	15466547	hadcm3n_zbj1_1880_40_008245328_3	725,760	863,463	1.1897
13 Dec 2012 18:35:42	1255454	15466547	hadcm3n_zbj1_1880_40_008245328_3	699,840	832,921	1.1902
13 Dec 2012 18:35:42	1255454	15466547	hadcm3n_zbj1_1880_40_008245328_3	673,920	801,909	1.1899
13 Dec 2012 18:35:42	1255454	15466547	hadcm3n_zbj1_1880_40_008245328_3	648,000	771,920	1.1912
13 Dec 2012 18:35:42	1255454	15466547	hadcm3n_zbj1_1880_40_008245328_3	622,080	741,117	1.1914
13 Dec 2012 18:35:42	1255454	15466547	hadcm3n_zbj1_1880_40_008245328_3	596,160	711,582	1.1936
13 Dec 2012 18:35:42	1255454	15466547	hadcm3n_zbj1_1880_40_008245328_3	570,240	680,044	1.1926
13 Dec 2012 18:35:43	1255454	15466547	hadcm3n_zbj1_1880_40_008245328_3	544,320	647,525	1.1896
13 Dec 2012 18:35:42	1255454	15466547	hadcm3n_zbj1_1880_40_008245328_3	518,400	615,648	1.1876
13 Dec 2012 18:35:42	1255454	15466547	hadcm3n_zbj1_1880_40_008245328_3	492,480	583,341	1.1845
08 Dec 2012 03:20:11	1255454	15466547	hadcm3n_zbj1_1880_40_008245328_3	466,560	551,770	1.1826
07 Dec 2012 17:18:36	1255454	15466547	hadcm3n_zbj1_1880_40_008245328_3	440,640	519,413	1.1788
07 Dec 2012 09:17:03	1255454	15466547	hadcm3n_zbj1_1880_40_008245328_3	414,720	487,648	1.1758
07 Dec 2012 00:20:33	1255454	15466547	hadcm3n_zbj1_1880_40_008245328_3	388,800	455,800	1.1723
06 Dec 2012 14:25:08	1255454	15466547	hadcm3n_zbj1_1880_40_008245328_3	362,880	423,575	1.1673
06 Dec 2012 05:27:46	1255454	15466547	hadcm3n_zbj1_1880_40_008245328_3	336,960	391,882	1.1630