Task 12735790

Name	hadcm3n_o1it_1900_40_007197304_0
Workunit	7395584
Created	28 Mar 2011, 14:00:30 UTC
Sent	1 Apr 2011, 17:34:01 UTC
Report deadline	2 Jul 2011, 1:01:12 UTC
Received	14 May 2011, 8:01:20 UTC
Server state	Over
Outcome	Computation error
Client state	Compute error
Exit status	22 (0x00000016) Unknown error code
Computer ID	1126771
Run time	18 days 8 hours 16 min 52 sec
CPU time	16 days 23 hours 19 min 10 sec
Validate state	Invalid
Credit	9,331.20
Device peak FLOPS	2.26 GFLOPS
Application version	UK Met Office Coupled Model Full Resolution Ocean v6.07 windows_intelx86
Stderr	<core_client_version>6.12.26</core_client_version> <![CDATA[ <message> The device does not recognize the command. (0x16) - exit code 22 (0x16) </message> <stderr_txt> CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... 17:26:22 (2792): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 09:25:22 (2356): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 03:24:22 (2792): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=1312, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=1312, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=1312, iMonCtr=1 Model crash detected, will try to restart... CPDN Monitor - Quit request from BOINC... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=2408, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=2744, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=2744, iMonCtr=1 Model crash detected, will try to restart... Sorry, too many model crashes! :-( Called boinc_finish </stderr_txt> ]]>

Latest Trickles Received
Time Sent (UTC)	Host ID	Result ID	Result Name	Timestep	CPU Time (sec)	Average (sec/TS)
13 May 2011 01:23:06	1126771	12735790	hadcm3n_o1it_1900_40_007197304_0	777,600	1,450,476	1.8653
12 May 2011 12:30:39	1126771	12735790	hadcm3n_o1it_1900_40_007197304_0	751,680	1,404,342	1.8683
11 May 2011 22:58:41	1126771	12735790	hadcm3n_o1it_1900_40_007197304_0	725,760	1,356,313	1.8688
11 May 2011 08:44:47	1126771	12735790	hadcm3n_o1it_1900_40_007197304_0	699,840	1,307,905	1.8689
10 May 2011 10:57:37	1126771	12735790	hadcm3n_o1it_1900_40_007197304_0	673,920	1,257,097	1.8654
09 May 2011 16:03:23	1126771	12735790	hadcm3n_o1it_1900_40_007197304_0	648,000	1,207,083	1.8628
08 May 2011 23:44:30	1126771	12735790	hadcm3n_o1it_1900_40_007197304_0	622,080	1,157,320	1.8604
08 May 2011 09:49:45	1126771	12735790	hadcm3n_o1it_1900_40_007197304_0	596,160	1,109,128	1.8605
07 May 2011 19:08:21	1126771	12735790	hadcm3n_o1it_1900_40_007197304_0	570,240	1,060,655	1.8600
07 May 2011 04:24:34	1126771	12735790	hadcm3n_o1it_1900_40_007197304_0	544,320	1,012,331	1.8598
06 May 2011 13:29:52	1126771	12735790	hadcm3n_o1it_1900_40_007197304_0	518,400	963,875	1.8593
05 May 2011 23:15:23	1126771	12735790	hadcm3n_o1it_1900_40_007197304_0	492,480	915,973	1.8599
05 May 2011 08:53:21	1126771	12735790	hadcm3n_o1it_1900_40_007197304_0	466,560	867,917	1.8602
04 May 2011 18:06:13	1126771	12735790	hadcm3n_o1it_1900_40_007197304_0	440,640	819,554	1.8599
04 May 2011 03:27:08	1126771	12735790	hadcm3n_o1it_1900_40_007197304_0	414,720	771,104	1.8593
03 May 2011 13:07:25	1126771	12735790	hadcm3n_o1it_1900_40_007197304_0	388,800	723,192	1.8601
02 May 2011 22:54:00	1126771	12735790	hadcm3n_o1it_1900_40_007197304_0	362,880	674,903	1.8599
02 May 2011 09:15:03	1126771	12735790	hadcm3n_o1it_1900_40_007197304_0	336,960	626,159	1.8583
01 May 2011 19:41:39	1126771	12735790	hadcm3n_o1it_1900_40_007197304_0	311,040	577,800	1.8576
01 May 2011 06:32:30	1126771	12735790	hadcm3n_o1it_1900_40_007197304_0	285,120	529,837	1.8583