Task 15425123

Name	hadcm3n_ykff_1980_40_008243904_2
Workunit	8399028
Created	2 Nov 2012, 0:20:28 UTC
Sent	2 Nov 2012, 0:20:33 UTC
Report deadline	1 Feb 2013, 7:47:44 UTC
Received	18 Nov 2012, 13:09:53 UTC
Server state	Over
Outcome	Computation error
Client state	Compute error
Exit status	22 (0x00000016) Unknown error code
Computer ID	1130678
Run time	15 days 14 hours 58 min 51 sec
CPU time	14 days 7 hours 45 min 47 sec
Validate state	Invalid
Credit	8,087.04
Device peak FLOPS	2.13 GFLOPS
Application version	UK Met Office Coupled Model Full Resolution Ocean v6.07 windows_intelx86
Stderr	<core_client_version>6.10.58</core_client_version> <![CDATA[ <message> The device does not recognize the command. (0x16) - exit code 22 (0x16) </message> <stderr_txt> 10:25:48 (11184): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 10:25:49 (11184): No heartbeat from core client for 30 sec - exiting 10:25:50 (11184): No heartbeat from core client for 30 sec - exiting 10:25:51 (11184): No heartbeat from core client for 30 sec - exiting 10:25:52 (11184): No heartbeat from core client for 30 sec - exiting 10:25:53 (11184): No heartbeat from core client for 30 sec - exiting 10:25:54 (11184): No heartbeat from core client for 30 sec - exiting 10:25:55 (11184): No heartbeat from core client for 30 sec - exiting 10:25:56 (11184): No heartbeat from core client for 30 sec - exiting 10:25:57 (11184): No heartbeat from core client for 30 sec - exiting 10:25:58 (11184): No heartbeat from core client for 30 sec - exiting 11:00:38 (9828): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 11:00:39 (9828): No heartbeat from core client for 30 sec - exiting 11:00:40 (9828): No heartbeat from core client for 30 sec - exiting 11:00:41 (9828): No heartbeat from core client for 30 sec - exiting 11:00:42 (9828): No heartbeat from core client for 30 sec - exiting 11:00:43 (9828): No heartbeat from core client for 30 sec - exiting 11:00:44 (9828): No heartbeat from core client for 30 sec - exiting 11:00:45 (9828): No heartbeat from core client for 30 sec - exiting 11:00:46 (9828): No heartbeat from core client for 30 sec - exiting 11:00:47 (9828): No heartbeat from core client for 30 sec - exiting Suspended CPDN Monitor - Suspend request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=10652, iMonCtr=1 Model crash detected, will try to restart... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3884, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3884, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3884, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3884, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3712, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3712, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3712, iMonCtr=1 Model crash detected, will try to restart... Sorry, too many model crashes! :-( Called boinc_finish </stderr_txt> ]]>

Latest Trickles Received
Time Sent (UTC)	Host ID	Result ID	Result Name	Timestep	CPU Time (sec)	Average (sec/TS)
17 Nov 2012 23:13:25	1130678	15425123	hadcm3n_ykff_1980_40_008243904_2	673,920	1,209,103	1.7941
16 Nov 2012 19:02:27	1130678	15425123	hadcm3n_ykff_1980_40_008243904_2	648,000	1,162,491	1.7940
16 Nov 2012 05:15:21	1130678	15425123	hadcm3n_ykff_1980_40_008243904_2	622,080	1,115,765	1.7936
15 Nov 2012 15:30:10	1130678	15425123	hadcm3n_ykff_1980_40_008243904_2	596,160	1,068,898	1.7930
15 Nov 2012 00:23:17	1130678	15425123	hadcm3n_ykff_1980_40_008243904_2	570,240	1,022,438	1.7930
14 Nov 2012 09:29:06	1130678	15425123	hadcm3n_ykff_1980_40_008243904_2	544,320	975,083	1.7914
13 Nov 2012 19:51:21	1130678	15425123	hadcm3n_ykff_1980_40_008243904_2	518,400	927,977	1.7901
13 Nov 2012 06:38:09	1130678	15425123	hadcm3n_ykff_1980_40_008243904_2	492,480	881,581	1.7901
12 Nov 2012 16:53:30	1130678	15425123	hadcm3n_ykff_1980_40_008243904_2	466,560	834,609	1.7889
12 Nov 2012 02:16:37	1130678	15425123	hadcm3n_ykff_1980_40_008243904_2	440,640	787,980	1.7883
11 Nov 2012 10:47:51	1130678	15425123	hadcm3n_ykff_1980_40_008243904_2	414,720	741,667	1.7884
10 Nov 2012 19:49:22	1130678	15425123	hadcm3n_ykff_1980_40_008243904_2	388,800	695,214	1.7881
10 Nov 2012 04:20:24	1130678	15425123	hadcm3n_ykff_1980_40_008243904_2	362,880	648,455	1.7870
09 Nov 2012 14:59:52	1130678	15425123	hadcm3n_ykff_1980_40_008243904_2	336,960	601,924	1.7863
08 Nov 2012 23:18:50	1130678	15425123	hadcm3n_ykff_1980_40_008243904_2	311,040	554,950	1.7842
08 Nov 2012 10:14:48	1130678	15425123	hadcm3n_ykff_1980_40_008243904_2	285,120	508,889	1.7848
07 Nov 2012 20:36:47	1130678	15425123	hadcm3n_ykff_1980_40_008243904_2	259,200	462,331	1.7837
07 Nov 2012 06:57:26	1130678	15425123	hadcm3n_ykff_1980_40_008243904_2	233,280	415,851	1.7826
06 Nov 2012 17:52:17	1130678	15425123	hadcm3n_ykff_1980_40_008243904_2	207,360	370,093	1.7848
06 Nov 2012 04:25:08	1130678	15425123	hadcm3n_ykff_1980_40_008243904_2	181,440	323,918	1.7853