Task 14301209

Name	hadcm3n_yh6d_1940_40_007834414_3
Workunit	7989526
Created	21 Mar 2012, 19:02:06 UTC
Sent	21 Mar 2012, 19:02:17 UTC
Report deadline	21 Jun 2012, 2:29:28 UTC
Received	2 May 2012, 1:21:32 UTC
Server state	Over
Outcome	Computation error
Client state	Compute error
Exit status	22 (0x00000016) Unknown error code
Computer ID	1171847
Run time	6 days 16 hours 34 min 30 sec
CPU time	6 days 15 hours 50 min 9 sec
Validate state	Invalid
Credit	9,331.20
Device peak FLOPS	3.57 GFLOPS
Application version	UK Met Office Coupled Model Full Resolution Ocean v6.07 windows_intelx86
Stderr	<core_client_version>6.12.34</core_client_version> <![CDATA[ <message> The device does not recognize the command. (0x16) - exit code 22 (0x16) </message> <stderr_txt> 07:35:01 (4800): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4596, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4596, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4596, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4596, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4596, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4388, iMonCtr=1 Model crash detected, will try to restart... Sorry, too many model crashes! :-( Called boinc_finish </stderr_txt> ]]>

Latest Trickles Received
Time Sent (UTC)	Host ID	Result ID	Result Name	Timestep	CPU Time (sec)	Average (sec/TS)
01 May 2012 11:50:23	1171847	14301209	hadcm3n_yh6d_1940_40_007834414_3	777,600	573,637	0.7377
01 May 2012 06:33:48	1171847	14301209	hadcm3n_yh6d_1940_40_007834414_3	751,680	554,536	0.7377
01 May 2012 01:17:21	1171847	14301209	hadcm3n_yh6d_1940_40_007834414_3	725,760	535,367	0.7377
30 Apr 2012 07:27:55	1171847	14301209	hadcm3n_yh6d_1940_40_007834414_3	699,840	516,310	0.7378
30 Apr 2012 02:06:22	1171847	14301209	hadcm3n_yh6d_1940_40_007834414_3	673,920	497,234	0.7378
27 Apr 2012 05:38:13	1171847	14301209	hadcm3n_yh6d_1940_40_007834414_3	648,000	478,150	0.7379
27 Apr 2012 00:21:10	1171847	14301209	hadcm3n_yh6d_1940_40_007834414_3	622,080	459,075	0.7380
26 Apr 2012 05:42:34	1171847	14301209	hadcm3n_yh6d_1940_40_007834414_3	596,160	439,895	0.7379
26 Apr 2012 00:29:55	1171847	14301209	hadcm3n_yh6d_1940_40_007834414_3	570,240	420,591	0.7376
24 Apr 2012 06:02:27	1171847	14301209	hadcm3n_yh6d_1940_40_007834414_3	544,320	401,422	0.7375
24 Apr 2012 00:45:32	1171847	14301209	hadcm3n_yh6d_1940_40_007834414_3	518,400	382,268	0.7374
23 Apr 2012 07:10:18	1171847	14301209	hadcm3n_yh6d_1940_40_007834414_3	492,480	363,202	0.7375
23 Apr 2012 01:53:18	1171847	14301209	hadcm3n_yh6d_1940_40_007834414_3	466,560	343,940	0.7372
20 Apr 2012 05:03:03	1171847	14301209	hadcm3n_yh6d_1940_40_007834414_3	440,640	324,596	0.7366
19 Apr 2012 23:36:07	1171847	14301209	hadcm3n_yh6d_1940_40_007834414_3	414,720	305,003	0.7354
19 Apr 2012 18:21:47	1171847	14301209	hadcm3n_yh6d_1940_40_007834414_3	388,800	286,008	0.7356
19 Apr 2012 13:04:54	1171847	14301209	hadcm3n_yh6d_1940_40_007834414_3	362,880	267,005	0.7358
19 Apr 2012 07:42:51	1171847	14301209	hadcm3n_yh6d_1940_40_007834414_3	336,960	247,768	0.7353
19 Apr 2012 02:26:11	1171847	14301209	hadcm3n_yh6d_1940_40_007834414_3	311,040	228,628	0.7350
18 Apr 2012 21:09:03	1171847	14301209	hadcm3n_yh6d_1940_40_007834414_3	285,120	209,545	0.7349