Task 13141214

Name	hadcm3n_yewl_1900_40_007352175_2
Workunit	7549605
Created	16 Jul 2011, 0:53:48 UTC
Sent	16 Jul 2011, 0:59:33 UTC
Report deadline	15 Oct 2011, 8:26:44 UTC
Received	29 Aug 2011, 2:52:50 UTC
Server state	Over
Outcome	Computation error
Client state	Compute error
Exit status	22 (0x00000016) Unknown error code
Computer ID	990394
Run time	40 days 21 hours 22 min 39 sec
CPU time	37 days 18 hours 5 min 38 sec
Validate state	Invalid
Credit	9,953.28
Device peak FLOPS	2.31 GFLOPS
Application version	UK Met Office Coupled Model Full Resolution Ocean v6.07 windows_intelx86
Stderr	<core_client_version>6.12.33</core_client_version> <![CDATA[ <message> The device does not recognize the command. (0x16) - exit code 22 (0x16) </message> <stderr_txt> Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 07:47:19 (2608): Can't acquire lockfile (32) - waiting 35s 07:47:30 (1832): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 07:47:54 (2608): Can't acquire lockfile (32) - exiting 07:47:54 (2608): Error: The process cannot access the file because it is being used by another process. (0x20) 07:48:06 (5288): Can't acquire lockfile (32) - waiting 35s 07:48:37 (1472): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... 01:39:37 (5192): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3908, iMonCtr=1 Model crash detected, will try to restart... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3624, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3520, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3520, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3520, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3520, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3520, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3520, iMonCtr=1 Model crash detected, will try to restart... Sorry, too many model crashes! :-( Called boinc_finish 20:48:48 (3520): No heartbeat from core client for 30 sec - exiting 20:48:49 (3520): No heartbeat from core client for 30 sec - exiting </stderr_txt> ]]>

Latest Trickles Received
Time Sent (UTC)	Host ID	Result ID	Result Name	Timestep	CPU Time (sec)	Average (sec/TS)
27 Aug 2011 03:55:31	990394	13141214	hadcm3n_yewl_1900_40_007352175_2	829,440	3,159,840	3.8096
25 Aug 2011 18:48:33	990394	13141214	hadcm3n_yewl_1900_40_007352175_2	803,520	3,056,257	3.8036
24 Aug 2011 10:15:11	990394	13141214	hadcm3n_yewl_1900_40_007352175_2	777,600	2,948,540	3.7918
23 Aug 2011 00:42:33	990394	13141214	hadcm3n_yewl_1900_40_007352175_2	751,680	2,841,510	3.7802
21 Aug 2011 17:38:59	990394	13141214	hadcm3n_yewl_1900_40_007352175_2	725,760	2,736,987	3.7712
20 Aug 2011 11:07:31	990394	13141214	hadcm3n_yewl_1900_40_007352175_2	699,840	2,636,752	3.7676
19 Aug 2011 04:21:42	990394	13141214	hadcm3n_yewl_1900_40_007352175_2	673,920	2,535,912	3.7629
17 Aug 2011 22:12:09	990394	13141214	hadcm3n_yewl_1900_40_007352175_2	648,000	2,438,028	3.7624
16 Aug 2011 17:20:05	990394	13141214	hadcm3n_yewl_1900_40_007352175_2	622,080	2,339,532	3.7608
15 Aug 2011 12:40:17	990394	13141214	hadcm3n_yewl_1900_40_007352175_2	596,160	2,242,934	3.7623
14 Aug 2011 05:30:21	990394	13141214	hadcm3n_yewl_1900_40_007352175_2	570,240	2,142,806	3.7577
12 Aug 2011 21:20:25	990394	13141214	hadcm3n_yewl_1900_40_007352175_2	544,320	2,037,499	3.7432
11 Aug 2011 12:16:14	990394	13141214	hadcm3n_yewl_1900_40_007352175_2	518,400	1,928,254	3.7196
09 Aug 2011 17:55:14	990394	13141214	hadcm3n_yewl_1900_40_007352175_2	492,480	1,820,937	3.6975
08 Aug 2011 02:44:07	990394	13141214	hadcm3n_yewl_1900_40_007352175_2	466,560	1,725,015	3.6973
06 Aug 2011 17:54:29	990394	13141214	hadcm3n_yewl_1900_40_007352175_2	440,640	1,621,605	3.6801
05 Aug 2011 09:36:27	990394	13141214	hadcm3n_yewl_1900_40_007352175_2	414,720	1,529,770	3.6887
04 Aug 2011 05:02:37	990394	13141214	hadcm3n_yewl_1900_40_007352175_2	388,800	1,437,007	3.6960
02 Aug 2011 18:39:15	990394	13141214	hadcm3n_yewl_1900_40_007352175_2	362,880	1,347,642	3.7137
01 Aug 2011 14:05:49	990394	13141214	hadcm3n_yewl_1900_40_007352175_2	336,960	1,251,314	3.7135