lipalipski  Dołączył: 28 Mar 2007
Uff... Poczytałem tu trochę, w tak zwanym między czasie, o problemach z restartowaniem, wieszaniem i wysyłaniem. Ale skończyło liczyć szczęśliwie pierwsze Wu, pobrało kolejne. Działa!
 

Szumak  Dołączył: 18 Cze 2007
Jak często zdaża Wam się:
Cytat
Folding@home Core Shutdown: EARLY_UNIT_END

:?: :?:

Bo co ciekawe: na kilku maszynach dual-head pierwszy proces zwykle liczy mi nieprzerwanie, proces obliczeń na drugim procesorze po kilkunastu godzinach kończy się zwykle jakimś błędem (przy czym różnym) i mam tych błędów całkiem sporo, ale zaznaczam: tylko na dual-head'ach jak dotychczas.
 

zorzyk  Dołączył: 21 Kwi 2006
Na procesorze dwurdzeniowym (D915) liczą mi się jednocześnie 2 instancje (każda skonfigurowana we własnym katalogu, jedna ma ID 1, druga ID 2, ustawiane przez -configonly, w częsci "advanced"). Każda liczy sie od innego początku, obie zatrzymuję na noc (przez zatrzymanie usługi), potem na drugi dzień podejmuje liczenie. Czyli nie ma przedwczesnego zakończenia obliczeń.

Być może:
- obie instancje mają ten sa ID (?)
- może masz zbyt wysokie przetaktowanie maszyny (przegrzewanie procesora albo cuś)
- może masz sieć po WiFi a nie po kablu?
- może w locie zmieniają Ci się parametry sieci na komputerze (jakieś DHCP, sam nie wiem, ale to jest bardzo czułe mijsce dla f@h)
A może to w ogóle jakiś kaczor i trafiła Ci wredna cząsteczka? Możesz podać Projekt (Run, Clone, Gen) (jest w logu, np. u mnie jest takie: Project: 2653 (Run 23, Clone 160, Gen 15)).
 
lipalipski  Dołączył: 28 Mar 2007
zorzyk napisał/a:
- może masz sieć po WiFi a nie po kablu?

Ja tak mam, nic się nie buntuje.
 

perl  Dołączył: 24 Wrz 2006
gdyby nie pewne ograniczenia, przekląłbym dosadnie.

Nie mogę a chciałbym.

Wobec tego mogę wyrazić zdziwienie w zgoła inny sposób:

po skończeniu studiów na UŚ-iu, idę na informatykę, żeby nie reklamować, do Wyższej Szkoły Tech.... w Katowicach.


Całkiem Serio.






Tylko po to, żeby wiedzieć, osochozzziiiii.
 

Szumak  Dołączył: 18 Cze 2007
zorzyk napisał/a:
Na procesorze dwurdzeniowym (D915) liczą mi się jednocześnie 2 instancje (każda skonfigurowana we własnym katalogu, jedna ma ID 1, druga ID 2, ustawiane przez -configonly, w częsci "advanced"). Każda liczy sie od innego początku, obie zatrzymuję na noc (przez zatrzymanie usługi), potem na drugi dzień podejmuje liczenie. Czyli nie ma przedwczesnego zakończenia obliczeń.


Jest to logiczne i intuicyjne, dwa różne procesy, dwa projekty, na dwóch fizycznych procesorach...

zorzyk napisał/a:
- obie instancje mają ten sa ID (?)


nie mają

zorzyk napisał/a:
- może masz zbyt wysokie przetaktowanie maszyny (przegrzewanie procesora albo cuś)


nie, nie podkręcam maszyn przewidzianych jako "long run"

zorzyk napisał/a:
- może masz sieć po WiFi a nie po kablu?
- może w locie zmieniają Ci się parametry sieci na komputerze (jakieś DHCP, sam nie wiem, ale to jest bardzo czułe mijsce dla f@h)


stała adresacja na ethernecie, co pawda nie mogę pojąć jaki to może mieć wpływ na przebieg obliczeń... no ale jestem świadom swoich ułomności :)

zorzyk napisał/a:
A może to w ogóle jakiś kaczor i trafiła Ci wredna cząsteczka? Możesz podać Projekt (Run, Clone, Gen) (jest w logu, np. u mnie jest takie: Project: 2653 (Run 23, Clone 160, Gen 15)).


Też tak z początku pomyślałem, ale zbyt wiele jest tych przypadków i wszystkie mam tylko na dwóch maszynach... problem w tym, że nie mogę sobie pozwolić nawet na podejrzenia, że coś z tymi maszynami coś nie tak.
W obu przypadkach to płyty serwerowe z procesorami PIII 600-700MHz, uptime > 140 dni i wszystko działa stabilnie więc pamięć i procesory muszą być w porządku.
Może problemem jest emulacja linuksa?

Szczegóły projektów podam z pracy, bo teraz już muszę lecieć :)

[ Dodano: 2007-12-05, 09:45 ]
A więc tak to wygląda w porządku niechronologicznym:

Cytat

cpu0 at mainbus0: apid 1 (boot processor)
cpu0: Intel Pentium III (686-class), 731.07 MHz, id 0x683
cpu0: features 383fbff<FPU,VME,DE,PSE,TSC,MSR,PAE,MCE,CX8,APIC,SEP,MTRR>
cpu0: features 383fbff<PGE,MCA,CMOV,PAT,PSE36,MMX>
cpu0: features 383fbff<FXSR,SSE>
cpu0: I-cache 16 KB 32B/line 4-way, D-cache 16 KB 32B/line 4-way
cpu0: L2 cache 256 KB 32B/line 8-way
cpu0: ITLB 32 4 KB entries 4-way, 2 4 MB entries fully associative
cpu0: DTLB 64 4 KB entries 4-way, 8 4 MB entries 4-way
cpu0: calibrating local timer
cpu0: apic clock running at 132 MHz
cpu0: 8 page colors
cpu1 at mainbus0: apid 0 (application processor)
cpu1: starting
cpu1: Intel Pentium III (686-class), 731.02 MHz, id 0x683
cpu1: features 383fbff<FPU,VME,DE,PSE,TSC,MSR,PAE,MCE,CX8,APIC,SEP,MTRR>
cpu1: features 383fbff<PGE,MCA,CMOV,PAT,PSE36,MMX>
cpu1: features 383fbff<FXSR,SSE>
cpu1: I-cache 16 KB 32B/line 4-way, D-cache 16 KB 32B/line 4-way
cpu1: L2 cache 256 KB 32B/line 8-way
cpu1: ITLB 32 4 KB entries 4-way, 2 4 MB entries fully associative
cpu1: DTLB 64 4 KB entries 4-way, 8 4 MB entries 4-way


sesja na cpu0 na razie nie przerwana:
Cytat

[14:04:58] Project: 3738 (Run 64, Clone 14, Gen 2)
...ciach...
[07:14:33] Writing local files
[07:14:33] Completed 600000 out of 1500000 steps (40%)


sesja na cpu1:
Cytat
[12:37:41] Project: 4114 (Run 98, Clone 11, Gen 0)
...ciach...
[07:07:33] Writing local files
[07:07:33] Completed 345000 out of 1500000 steps (23%)
[07:44:17] Quit 101 - Fatal error: NaN detected: (ener[17])


Cytat
[14:02:44] Project: 3736 (Run 10, Clone 0, Gen 11)
...ciach...
[21:18:39] Writing local files
[21:18:39] Completed 210000 out of 1500000 steps (14%)
[21:25:41] Quit 101 - Fatal error: NaN detected: (ener[18])


Cytat
[21:26:43] Project: 3643 (Run 74, Clone 3, Gen 5)
...ciach...
[11:28:45] Writing local files
[11:28:45] Completed 255000 out of 1500000 steps (17%)
[12:36:47] Quit 101 - Fatal error: ci = -2147483648 should be in 0 .. 511 [FILE
nsgrid.c, LINE 215]
 

anduril  Dołączył: 31 Lip 2007
U mnie na kliencie SMP za każdym razem kiedy odłączę/podłączę kabel sieciowy, klient "zamarza", czyli nie liczy, ale nic na ten temat nie zgłasza. Dopiero po ctrl+c i ponownym uruchomieniu zaczyna liczyć. Problemu nie ma jeśli chodzi przy na stałe odłączonej albo na stałe podłączonej sieci.
Taki tylko strzał z biodra - może sieć Ci się rwie?
 

zorzyk  Dołączył: 21 Kwi 2006
Szumak, co masz na myśli pisząc "emulacja linuksa"?

Zarejestruj się na forum http://foldingforum.org/ i przedstaw tam problemy, bo chyba tylko tak można dalej coś z tym zrobić...
 

Szumak  Dołączył: 18 Cze 2007
Druga maszyna Dell PowerEdge 2400:
Cytat
cpu0 at mainbus0: apid 1 (boot processor)
cpu0: Intel Pentium III (686-class), 598.14 MHz, id 0x683
cpu0: features 387fbff<FPU,VME,DE,PSE,TSC,MSR,PAE,MCE,CX8,APIC,SEP,MTRR>
cpu0: features 387fbff<PGE,MCA,CMOV,PAT,PSE36,PN,MMX>
cpu0: features 387fbff<FXSR,SSE>
cpu0: I-cache 16 KB 32B/line 4-way, D-cache 16 KB 32B/line 4-way
cpu0: L2 cache 256 KB 32B/line 8-way
cpu0: ITLB 32 4 KB entries 4-way, 2 4 MB entries fully associative
cpu0: DTLB 64 4 KB entries 4-way, 8 4 MB entries 4-way
cpu0: serial number 0000-0683-0002-74DC-E310-6FB8
cpu0: calibrating local timer
cpu0: apic clock running at 132 MHz
cpu0: 8 page colors
cpu1 at mainbus0: apid 0 (application processor)
cpu1: starting
cpu1: Intel Pentium III (686-class), 598.11 MHz, id 0x683
cpu1: features 387fbff<FPU,VME,DE,PSE,TSC,MSR,PAE,MCE,CX8,APIC,SEP,MTRR>
cpu1: features 387fbff<PGE,MCA,CMOV,PAT,PSE36,PN,MMX>
cpu1: features 387fbff<FXSR,SSE>
cpu1: I-cache 16 KB 32B/line 4-way, D-cache 16 KB 32B/line 4-way
cpu1: L2 cache 256 KB 32B/line 8-way
cpu1: ITLB 32 4 KB entries 4-way, 2 4 MB entries fully associative
cpu1: DTLB 64 4 KB entries 4-way, 8 4 MB entries 4-way
cpu1: serial number 0000-0683-0000-5538-1C45-0F03


cpu0:
Cytat

[14:08:26] Project: 3040 (Run 30, Clone 447, Gen 33)
...ciach...
[14:21:16] Writing local files
[14:21:16] Completed 750000 out of 5000000 steps (15%)
[14:45:07] CoreStatus = 0 (0)
[14:45:07] Client-core communications error: ERROR 0x0
[14:45:07] Deleting current work unit & continuing...


Cytat
[14:46:11] Project: 3040 (Run 30, Clone 447, Gen 33)
...ciach...
[23:16:17] Writing local files
[23:16:17] Completed 1700000 out of 5000000 steps (34%)
[00:21:27] Quit 101 - Fatal error: NaN detected: (ener[13])


Cytat
[00:23:10] Project: 3738 (Run 12, Clone 2, Gen 4)
...ciach...
[07:57:00] Writing local files
[07:57:00] Completed 45000 out of 1500000 steps (3%)


cpu1:
Cytat
[07:04:26] Project: 3644 (Run 86, Clone 14, Gen 7)
...ciach...
[06:35:06] Writing local files
[06:35:06] Completed 135000 out of 1500000 steps (9%)
[07:46:13] Quit 101 - Fatal error: NaN detected: (ener[6])


Cytat
[07:46:45] Project: 4101 (Run 89, Clone 17, Gen 0)
...ciach...
[07:46:53] Completed 0 out of 1500000 steps (0%)
[08:05:40] Quit 101 - Fatal error: NaN detected: (ener[13])


Cytat
[08:06:21] Project: 4109 (Run 108, Clone 15, Gen 0)
...ciach...
[20:58:00] Writing local files
[20:58:01] Completed 105000 out of 1500000 steps (7%)
tutaj zatrzymałem sesję


Hmmm.... co jeszcze? Na obu maszynach liczyłem seti i nie miałem problemów z prawidłowym doliczeniem projektu do końca, tak więc ciekawostka.
Co więcej: na zwykłym PC w identycznym środowisku (system operacyjny, emulacja linuksa, podobna wydajność) tyle, że pojedynczy P3 projekt liczy się bez błędów, tak więc jestem zgłuptaczony :-S
 

zorzyk  Dołączył: 21 Kwi 2006
anduril napisał/a:
na kliencie SMP za każdym razem kiedy odłączę/podłączę kabel sieciowy, klient "zamarza"
Tak właśnie jest, ale nie tylko - nawet wystarczy wejśc do parametrów sieci, i np.wyłączyć lub włączyć klienta Microsoft - jest to samo. Jawnie pisze sie, że SMP jest bardzo czuły na wszystko, co jest związane z działaniem/konfiguracją sieci.

[ Dodano: 2007-12-05, 10:03 ]
Takie zachowanie - że uruchamia sie 2 klienty SMP, oba pracują, a zatrzymanie jednego rozwala drugiego jest znane, ale właśnie dla klienta SMP, nie czytałem o podobnym zjawisku dla klienta konsolowego.

Szumak, to co jest tą "emulacją"?
 

Szumak  Dołączył: 18 Cze 2007
zorzyk napisał/a:
Szumak, co masz na myśli pisząc "emulacja linuksa"?

Cytat
Copyright (c) 1996, 1997, 1998, 1999, 2000, 2001, 2002, 2003, 2004, 2005, 2006
The NetBSD Foundation, Inc. All rights reserved.
Copyright (c) 1982, 1986, 1989, 1991, 1993
The Regents of the University of California. All rights reserved.

NetBSD 4.0_BETA2 (INCUBUS) #0: Fri Mar 16 15:46:05 CET 2007
root@K240.matinet.pl:/usr/obj/sys/arch/i386/compile/INCUBUS
total memory = 767 MB


Binarna emulacja linuksa na poziomie jądra systemu pozwalająca na uruchomienie programów pisanych pod linuksa jak natywnych plików binarnych.
Pakiety z bibliotekami linuksa pochodzą z dystrybucji SuSE-10.0
 

zorzyk  Dołączył: 21 Kwi 2006
pentax@pl pracowicie zwija :lol: ku chwale i na pożytek :-B
TOP 3000!

Zwijaj z nami! :-)
 

alkos  Dołączył: 18 Kwi 2006
zorzyk napisał/a:
TOP 3000!


Yeeey, dziekujemy ci drogi przodowniku!!! :-D

(ludzie, uzywajcie SMP... ;-) )
 

zorzyk  Dołączył: 21 Kwi 2006
Ech, alkosiu, to nasza zasługa! :mrgreen: :-B
 

alkos  Dołączył: 18 Kwi 2006
zorzyk napisał/a:
Ech, alkosiu, to nasza zasługa!
:-B :-B :-B
 

macioh  Dołączył: 28 Gru 2006
szkoda że ten projekt nie działa na BOINC :-/
 

Szumak  Dołączył: 18 Cze 2007
Na Bolku działa Rosetta i Predictor, dwa projekty tematycznie pokrewne.
LINK
 

alkos  Dołączył: 18 Kwi 2006
Szumak napisał/a:
Na Bolku działa [...] Predictor


Cytat
Ze względu na nieprzyjazną postawę opiekuna technicznego tego projektu, nie polecamy uczestnictwa w nim.



spoko...
 

anduril  Dołączył: 31 Lip 2007
Tak z ciekawości zapytam - jaki sprzęt i ustawienia klientów mają nasi teamowi wymiatacze? Mam na myśli przede wszystkim zorzyka i olqa, bo danio chyba odpadł, a alkos ma raczej dokładnie to co ja, ucieka tylko kiedy ja przez parę-paręnaście godzin mam przymusową przerwę w zwijaniu :)

Mój config: core2duo 1,66 GHz, 2GB RAM, 1x klient konsolowy SMP 5.91.
 

zorzyk  Dołączył: 21 Kwi 2006
Mój sprzęt:
1. Core 2 Quad Q6600/B3 @2970 MHz, 2 GB RAM, 1x klient konsolowy SMP 5.91.
- p2653 liczy się ok. 15.5 h

2. P4 D915, 1 GB, 2x klient konsolowy (jako usługa) 6.0 beta1 - komputer pracuje dorywczo, ale projekty mają 30 dni
- p2416 liczy się ok.61 h
- (testowałem klienta SMP: p2653 liczy sie 52 h)

Wyświetl posty z ostatnich:
Skocz do:
Nie możesz pisać nowych tematów
Nie możesz odpowiadać w tematach
Nie możesz zmieniać swoich postów
Nie możesz usuwać swoich postów
Nie możesz głosować w ankietach