[vpsFree: outage-list] Planovany vypadek / Planned outage - node1.prg, node2.prg, node3.prg, node6.prg, node8.prg, node9.prg, backuper.prg, nasbox.prg, router1.prg, router2.prg, node1.brq, node2.brq, node3.brq, node4.brq, router1.brq, router2.brq - 2013-07-10 01:00

Pavel Snajdr snajpa at snajpa.net
Wed Jul 10 04:29:51 CEST 2013


-----BEGIN PGP SIGNED MESSAGE-----
Hash: SHA256

Ahojte,

report z outage:

Tohle byl vubec nejstresovejsi planovany vypadek *EVER*, topnul i to,
jak rok zpatky umrelo tehdy jeste towerovemu node5 diskove pole.

Navzdory tomu, ze jsem si upgrade na SL6.4 a novy OpenVZ kernel
otestoval v testovacim prostredi, kde to sebehlo, na produkcnich
nodech to proste za boha nebezelo - konkretne node2, node3 a node8.

Random nenabihaly VPS, pripadne se boot seknul uz na startu udevu,
kernel hlasil "hung tasks" (coz vetsinou znaci pruser s diskovym
subsystemem)...

Zabil jsem asi nejstresovejsi 3 hodiny zivota, abych zjistil, ze kdyz
necham ty masiny minutu-dve odstat uplne vypnute (tzn. ne reboot), tak
to najednou nabehne... zrejme ty 3 stroje spojovalo to, ze mely
nejakou uzasnou verzi kernelu, ktera pri rebootu nechala tu masinu v
jakemsi nevyresetovanem stavu a pak to delalo psi kusy... Takze
darujhovno.cz budto kernelovym vyvojarum, ale spis to vidim na prasaky
ze Supermicro/AMI za dopraseny UEFI/BIOS, ktery neporadne resetuje
hardware.

Kazdopadne, vsechno nakonec *DOBRE* dopadlo.

Jestli vam nekomu VPS nenajela, je mozne, ze je to jeste artefakt z ne
uplne davne doby vpsAdminu, kdy spatne nastavoval on_boot flag VPSkam
- -> staci jit a pustit ji z vpsAdmin UI.

S pozdravem

Pavel Snajdr

+421 948 816 186  | +420 720 107 791          | 110-010-956
CTO of Relbit     | Predseda vpsFree.cz, o.s. | RHCE
http://relbit.com | http://vpsfree.cz         | https://www.redhat.com

On 07/08/2013 12:01 PM, podpora at vpsFree.cz wrote:
> Čas a datum výpadku: 2013-07-10 01:00 Očekavaná délka: 60 minut 
> Výpadek se týká serverů: node1.prg, node2.prg, node3.prg,
> node6.prg, node8.prg, node9.prg, backuper.prg, nasbox.prg,
> router1.prg, router2.prg, node1.brq, node2.brq, node3.brq,
> node4.brq, router1.brq, router2.brq Důvod: Update vsech systemu 
> Detailnější popis: Update na Scientific Linux 6.4 a nejnovejsi
> OpenVZ kernel. Výpadek vykonává: Pavel Snajdr, Jakub Skokan
> 
> ENGLISH: Date and time: 2013-07-10 01:00 Estimated duration: 60
> minutes What's affected: node1.prg, node2.prg, node3.prg,
> node6.prg, node8.prg, node9.prg, backuper.prg, nasbox.prg,
> router1.prg, router2.prg, node1.brq, node2.brq, node3.brq,
> node4.brq, router1.brq, router2.brq Reason: Systems update 
> Performed by: Pavel Snajdr, Jakub Skokan
> 
> 
> -----BEGIN BASE64 ENCODED PARSEABLE JSON----- 
> eyJ0eXBlX2NzIjoiUGxhbm92YW55IiwidHlwZV9lbiI6IlBsYW5uZWQiLCJkYXRlIjoiMjAxMy0w
>
> 
Ny0xMCAwMTowMCIsImR1cmF0aW9uIjoiNjAiLCJzZXJ2ZXJzIjpbIm5vZGUxLnByZyIsIm5vZGUy
> LnByZyIsIm5vZGUzLnByZyIsIm5vZGU2LnByZyIsIm5vZGU4LnByZyIsIm5vZGU5LnByZyIsImJh
>
> 
Y2t1cGVyLnByZyIsIm5hc2JveC5wcmciLCJyb3V0ZXIxLnByZyIsInJvdXRlcjIucHJnIiwibm9k
> ZTEuYnJxIiwibm9kZTIuYnJxIiwibm9kZTMuYnJxIiwibm9kZTQuYnJxIiwicm91dGVyMS5icnEi
>
> 
LCJyb3V0ZXIyLmJycSJdLCJyZWFzb25fY3MiOiJVcGRhdGUgdnNlY2ggc3lzdGVtdSIsImRlc2Ny
> aXB0aW9uX2NzIjoiVXBkYXRlIG5hIFNjaWVudGlmaWMgTGludXggNi40IGEgbmVqbm92ZWpzaSBP
>
> 
cGVuVloga2VybmVsLiIsInJlYXNvbl9lbiI6IlN5c3RlbXMgdXBkYXRlIiwicGVyZm9ybWVkX2J5
> IjoiUGF2ZWwgU25hamRyLCBKYWt1YiBTa29rYW4iLCJwcm9ncmVzc191cGRhdGVzIjoiIn0=
>
> 
- -----END BASE64 ENCODED PARSEABLE JSON-----
> 
> _______________________________________________ Outage-list mailing
> list Outage-list at lists.vpsfree.cz 
> http://lists.vpsfree.cz/listinfo/outage-list
-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.4.12 (GNU/Linux)
Comment: Using GnuPG with Mozilla - http://enigmail.mozdev.org/

iF4EAREIAAYFAlHcxxwACgkQMBKdi9lkZ6pxPAD9Faj5Iqk7ANti9qyP1Riia4N6
FmTiWymivbnGRdG8P7EBAJ/V8S38g4dI+hEZy16MK3o5prEFpXYRajXO8mwsezcu
=BOAp
-----END PGP SIGNATURE-----


More information about the Outage-list mailing list