Task 13109777

Name	hadcm3n_yfi8_1900_40_007352954_0
Workunit	7550384
Created	6 Jul 2011, 14:23:51 UTC
Sent	15 Jul 2011, 18:48:26 UTC
Report deadline	15 Oct 2011, 2:15:37 UTC
Received	21 Sep 2011, 8:55:12 UTC
Server state	Over
Outcome	Computation error
Client state	Compute error
Exit status	193 (0x000000C1) EXIT_SIGNAL
Computer ID	1069985
Run time	21 days 18 hours 56 min 7 sec
CPU time	20 days 3 hours 55 min 15 sec
Validate state	Invalid
Credit	9,331.20
Device peak FLOPS	2.11 GFLOPS
Application version	UK Met Office Coupled Model Full Resolution Ocean v6.07 windows_intelx86
Stderr	<core_client_version>6.12.33</core_client_version> <![CDATA[ <message> - exit code 193 (0xc1) </message> <stderr_txt> Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=5680, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3664, iMonCtr=1 Model crash detected, will try to restart... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=5868, iMonCtr=1 Model crash detected, will try to restart... Suspended CPDN Monitor - Suspend request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=5828, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4256, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=2112, iMonCtr=1 Model crash detected, will try to restart... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4528, iMonCtr=1 Model crash detected, will try to restart... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3956, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=2008, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4108, iMonCtr=1 Model crash detected, will try to restart... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... CController:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=972, iMonCtr=1 Model crash detected, will try to restart... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=6100, iMonCtr=1 Model crash detected, will try to restart... 09:52:44 (6024): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4416, iMonCtr=1 Model crash detected, will try to restart... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... 08:40:53 (6136): No heartbeat from core client for 30 sec - exiting 08:40:54 (6136): No heartbeat from core client for 30 sec - exiting 08:40:55 (6136): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=5652, iMonCtr=1 Model crash detected, will try to restart... Suspended CPDN Monitor - Suspend request from BOINC... Unhandled Exception Detected... - Unhandled Exception Record - Reason: Access Violation (0xc0000005) at address 0x77283FCA read attempt to address 0x40EEE310 Engaging BOINC Windows Runtime Debugger... Unhandled Exception Detected... - Unhandled Exception Record - Reason: Access Violation (0xc0000005) at address 0x770A6E0F read attempt to address 0x40EEE310 Engaging BOINC Windows Runtime Debugger... Cannot serialize file C:\ProgramData\BOINC/projects/climateprediction.net/hadcm3n_yfi8_1900_40_007352954/dataout/shmem_restart.day Signal 11 received, exiting... Called boinc_finish </stderr_txt> ]]>

Latest Trickles Received
Time Sent (UTC)	Host ID	Result ID	Result Name	Timestep	CPU Time (sec)	Average (sec/TS)
20 Sep 2011 16:25:57	1069985	13109777	hadcm3n_yfi8_1900_40_007352954_0	777,600	1,716,892	2.2079
16 Sep 2011 17:15:10	1069985	13109777	hadcm3n_yfi8_1900_40_007352954_0	751,680	1,660,092	2.2085
15 Sep 2011 12:05:53	1069985	13109777	hadcm3n_yfi8_1900_40_007352954_0	725,760	1,608,115	2.2158
14 Sep 2011 10:47:30	1069985	13109777	hadcm3n_yfi8_1900_40_007352954_0	699,840	1,551,327	2.2167
09 Sep 2011 12:44:41	1069985	13109777	hadcm3n_yfi8_1900_40_007352954_0	673,920	1,482,828	2.2003
07 Sep 2011 17:54:22	1069985	13109777	hadcm3n_yfi8_1900_40_007352954_0	648,000	1,426,686	2.2017
03 Sep 2011 18:46:50	1069985	13109777	hadcm3n_yfi8_1900_40_007352954_0	622,080	1,373,173	2.2074
01 Sep 2011 15:51:31	1069985	13109777	hadcm3n_yfi8_1900_40_007352954_0	596,160	1,309,786	2.1970
31 Aug 2011 09:21:09	1069985	13109777	hadcm3n_yfi8_1900_40_007352954_0	570,240	1,256,009	2.2026
30 Aug 2011 08:26:19	1069985	13109777	hadcm3n_yfi8_1900_40_007352954_0	544,320	1,196,502	2.1982
26 Aug 2011 14:15:09	1069985	13109777	hadcm3n_yfi8_1900_40_007352954_0	518,400	1,145,988	2.2106
25 Aug 2011 10:29:42	1069985	13109777	hadcm3n_yfi8_1900_40_007352954_0	492,480	1,094,233	2.2219
24 Aug 2011 10:35:58	1069985	13109777	hadcm3n_yfi8_1900_40_007352954_0	466,560	1,043,181	2.2359
22 Aug 2011 21:34:13	1069985	13109777	hadcm3n_yfi8_1900_40_007352954_0	440,640	989,822	2.2463
18 Aug 2011 16:08:47	1069985	13109777	hadcm3n_yfi8_1900_40_007352954_0	414,720	924,575	2.2294
17 Aug 2011 16:32:40	1069985	13109777	hadcm3n_yfi8_1900_40_007352954_0	388,800	871,527	2.2416
16 Aug 2011 15:51:36	1069985	13109777	hadcm3n_yfi8_1900_40_007352954_0	362,880	816,749	2.2507
15 Aug 2011 09:03:04	1069985	13109777	hadcm3n_yfi8_1900_40_007352954_0	336,960	763,408	2.2656
12 Aug 2011 12:36:31	1069985	13109777	hadcm3n_yfi8_1900_40_007352954_0	311,040	712,826	2.2918
10 Aug 2011 21:07:30	1069985	13109777	hadcm3n_yfi8_1900_40_007352954_0	285,120	654,441	2.2953