Task 14035161

Name	hadcm3n_ymat_1980_40_007743611_0
Workunit	7898719
Created	30 Jan 2012, 22:49:51 UTC
Sent	30 Jan 2012, 22:57:50 UTC
Report deadline	1 May 2012, 6:25:01 UTC
Received	27 Feb 2012, 11:00:47 UTC
Server state	Over
Outcome	Computation error
Client state	Compute error
Exit status	22 (0x00000016) Unknown error code
Computer ID	1069745
Run time	11 days 22 hours 7 min 12 sec
CPU time	9 days 10 hours 36 min 44 sec
Validate state	Invalid
Credit	5,287.68
Device peak FLOPS	2.13 GFLOPS
Application version	UK Met Office Coupled Model Full Resolution Ocean v6.07 windows_intelx86
Stderr	<core_client_version>7.0.15</core_client_version> <![CDATA[ <message> The device does not recognize the command. (0x16) - exit code 22 (0x16) </message> <stderr_txt> Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4844, iMonCtr=1 Model crash detected, will try to restart... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 03:47:01 (4788): No heartbeat from core client for 30 sec - exiting Suspended CPDN Monitor - No 'heartbeat' from BOINC... 03:47:02 (4788): No heartbeat from core client for 30 sec - exiting Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 15:23:50 (1124): No heartbeat from core client for 30 sec - exiting Suspended CPDN Monitor - No 'heartbeat' from BOINC... 15:23:51 (1124): No heartbeat from core client for 30 sec - exiting Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 10:51:30 (2976): No heartbeat from core client for 30 sec - exiting Suspended CPDN Monitor - No 'heartbeat' from BOINC... 10:51:31 (2976): No heartbeat from core client for 30 sec - exiting Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... BUFFOUT: C I/O Error - Return code = 32 Model crashed: WRITDUMP: BAD BUFFOUT OF DATA tmp/pipe_dummy 2048 Signal 11 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4364, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4364, iMonCtr=1 Model crash detected, will try to restart... Signal 11 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4364, iMonCtr=1 Model crash detected, will try to restart... Signal 11 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4364, iMonCtr=1 Model crash detected, will try to restart... Signal 11 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4364, iMonCtr=1 Model crash detected, will try to restart... Sorry, too many model crashes! :-( Called boinc_finish </stderr_txt> ]]>

Latest Trickles Received
Time Sent (UTC)	Host ID	Result ID	Result Name	Timestep	CPU Time (sec)	Average (sec/TS)
27 Feb 2012 03:30:57	1069745	14035161	hadcm3n_ymat_1980_40_007743611_0	440,640	924,096	2.0972
26 Feb 2012 12:01:54	1069745	14035161	hadcm3n_ymat_1980_40_007743611_0	414,720	869,287	2.0961
25 Feb 2012 20:31:57	1069745	14035161	hadcm3n_ymat_1980_40_007743611_0	388,800	815,821	2.0983
23 Feb 2012 21:40:17	1069745	14035161	hadcm3n_ymat_1980_40_007743611_0	362,880	760,190	2.0949
22 Feb 2012 11:56:49	1069745	14035161	hadcm3n_ymat_1980_40_007743611_0	336,960	702,641	2.0852
18 Feb 2012 05:01:53	1069745	14035161	hadcm3n_ymat_1980_40_007743611_0	311,040	644,303	2.0714
17 Feb 2012 11:44:04	1069745	14035161	hadcm3n_ymat_1980_40_007743611_0	285,120	592,782	2.0791
16 Feb 2012 01:10:07	1069745	14035161	hadcm3n_ymat_1980_40_007743611_0	259,200	539,015	2.0795
15 Feb 2012 04:10:53	1069745	14035161	hadcm3n_ymat_1980_40_007743611_0	233,280	486,739	2.0865
14 Feb 2012 12:45:56	1069745	14035161	hadcm3n_ymat_1980_40_007743611_0	207,360	433,646	2.0913
13 Feb 2012 19:31:26	1069745	14035161	hadcm3n_ymat_1980_40_007743611_0	181,440	374,552	2.0643
04 Feb 2012 11:23:44	1069745	14035161	hadcm3n_ymat_1980_40_007743611_0	155,520	311,587	2.0035
03 Feb 2012 20:21:33	1069745	14035161	hadcm3n_ymat_1980_40_007743611_0	129,600	260,535	2.0103
03 Feb 2012 03:01:43	1069745	14035161	hadcm3n_ymat_1980_40_007743611_0	103,680	208,054	2.0067
02 Feb 2012 10:28:43	1069745	14035161	hadcm3n_ymat_1980_40_007743611_0	77,760	155,496	1.9997
01 Feb 2012 14:56:54	1069745	14035161	hadcm3n_ymat_1980_40_007743611_0	51,840	102,827	1.9835
31 Jan 2012 14:21:56	1069745	14035161	hadcm3n_ymat_1980_40_007743611_0	25,920	50,904	1.9639