[vpsFree.cz: community-list] Vypadky a problemy - checklist

Pavel Snajdr snajpa at snajpa.net
Fri Apr 11 08:27:22 CEST 2014


-----BEGIN PGP SIGNED MESSAGE-----
Hash: SHA256

Aka. tim jsem chtel rict ze jsem ty automaticky migrace zrusil a ted
je poustim rucne po par jednotlivech VPS, tzn. jeste to mozna vypadne,
ale uz jenom na chvili a to uz bude konecne proto, ze pak uz fakt
budes mit tu VPS na node9.

S pozdravem

Pavel Snajdr

+421 948 816 186  | +420 720 107 791          | 110-010-956
CTO of Relbit     | Predseda vpsFree.cz, o.s. | RHCE
http://relbit.com | http://vpsfree.cz         | https://www.redhat.com

On 04/11/2014 08:19 AM, bacu at centrum.cz wrote:
> dobré ráno,
> 
> 
> 
> nemáte pls. nějakou přibližnou představu jak dlouho bude trvat
> 
> 
> Migration node8 -> node9 in progress
> 
> 
> 
> díky za info
> 
> 
> 
> Jan Macík
> 
> IT DEVELOPER
> 
> 
> 
> 776 005 239
> 
> 
> 
> 
> 
> ______________________________________________________________
>> Od: Pavel Snajdr <snajpa at snajpa.net> Komu: "vpsFree.cz Community
>> list" <community-list at lists.vpsfree.cz> Datum: 02.04.2014 19:35 
>> Předmět: Re: [vpsFree.cz: community-list] Vypadky a problemy -
>> checklist
>> 
> 
> On 04/02/2014 07:25 PM, Pavel Snajdr wrote:
>> Nakonec jsme se rozhodli pro trochu jiny reseni, je to ve
>> vyvoji, verim, ze se ukaze jako zivotaschopna. Dneska mam plodnej
>> den :)
> 
>> Stavime na blackholingu, MAI ho podporuje a pokud vim, tak to
>> pak propaguji i dal (kam se da, to proverim a budu tlacit na
>> zavedeni, pokud neni).
> 
>> Zkusime na to jit distribuovane, nepotrebujeme big box ani 
>> centralni bod, kterej by videl vsechen traffic.
> 
>> Mirime na reakcni cas do 1, max 1.5 minuty, zatim zapracujeme do 
>> vpsAdminu sbirani dat o toku dostatecne casto (co to pujde).
>> Potom podle dat vymodelujeme nejaky algoritmus, co bude delat
> 
>> a] blackholing decision b] QoS shaper decision
> 
>> + vpsadmind dostane podporu ovladat BIRD (aby mohl MAI oznamit 
>> blackholes, bude na to dedikovana instance BIRDu)
> 
>> + vpsadmind dostane podporu tc+htb
> 
> Slabinu navrhu vidim v jednom miste - spolejham se, ze v pripade
> DDoSu neco porad dotece na hw, kde ta cilova VPS je. Nebojim se, ze
> by se ten traffic nedal stihat (a stihat odcitat tak casto),
> vpsadmin uz ho ted cte kazdou chvili (v minutach) a nebyl problem,
> zachytavani pres iptables chainy uz tam je kvuli accountingu
> trafficu.
> 
> To je sice pravda, ale umim si predstavit situaci, kdyby to ten
> router neudrzel a proste z toho spadnul.
> 
> Nicmene to se zatim nikdy nestalo, jediny side-effect je, ze jsem 
> prisel na fakt, ze mame poskozenou medenou linku na prvni router - 
> projevila se jeji poruchovost...
> 
> /snajpa
> 
> 
>> /snajpa
> 
>> On 04/02/2014 07:12 PM, Stanislav Petr wrote:
>>> Jinak tomu jak rikas null routovani se rika blackholing. A uz 
>>> jsem popisoval jednoduse scriptovatelny reseni je sflow sonda
>>> na ASBR a napr. pmacct jako collector.
> 
> 
> 
>>> On 2. dubna 2014 14:57:01 CEST, Michal Krajcirovic 
>>> <michal at krajcirovic.cz> wrote:
> 
>>> Kluci, mozna ted budu vypadat desne nekompetentne a verejne se
>>> tu znemoznim :) Ale nestalo by za to udelat na vpsfree dve 
>>> "varianty", kdy by si mohl clovek zvolit, jestli chce 
>>> nejmodernejsi featury za cenu rizik s horsi dostupnosti, nebo
>>> na featury kasle, a preferuje dostupnost.
> 
>>> Napr. za sebe u vpsfree mam veci, ktery nejsou existencne 
>>> kriticky, ale je blby kdyz nejedou (tercialni dns, primarni 
>>> monitoring) - nelpim na poslednim buildu jadra a na kvantu 
>>> featur, naopak bych rad, kdybych mel co nejmene planovanych i 
>>> neplanovanych vypadku i za cenu, ze nebudu mit "to nejlepsi".
> 
>>> Prestoze nejakymu plgr prostredi co si chces udelat na
>>> testovani jader fandim, neverim ze tam dovedes nasimulovat ani
>>> vetsinu problemu ktere realne nastanou az proste "nekdo neco"
>>> udela.
> 
> 
>>> Soucasne jeste maly koment k tem DDOSum - u sve site (mam dva 
>>> upstreamy) mi jeden z nich (jde o fr eetel, pokud by to nekoho 
>>> zajimalo) umoznuje poslat prefix k null routovani s prislusnou 
>>> bgp komunitou a na jejich infrastrukture (a dle jejich
>>> vyjadreni i na infrastrukture jejich usptreamu) dojde
>>> automaticky k zariznuti. Tedy, pokud umime (idealne
>>> automaticky) detekovat na koho ten utok jde (coz pocitam ze
>>> ano), pak je to spis o tom dotlacit upstreama (master) k tomu,
>>> aby nam tuto featuru umoznil, a tipuju ze nebude nejak zvlast
>>> obtizny to naskriptovat, aby se to delo automaticky pri nejakym
>>> evidnetne problemovym chovani.
> 
>>> Zaverem - upgrade na 10GE nam jiste vyresi vetsi kapacitu pro 
>>> pripad utoku, ale jestli routujeme na birdu, nedelam si iluzi, 
>>> ze ten hw udrzi radove vetsi jednotky Gbit, aby bylo jak to 
>>> blokovat, na to je obavam se jedinou cestou router, co tech
>>> 10G opravdu uroutuje a nepujde do hnoje driv, nez vubec bude
>>> mozny nejaky prefix nullroutovat.
> 
>>> m
> 
> 
>>> Dne 2. 4. 2014 13:06 , Pavel Snajdr napsal(a):
> 
>>> On 04/02/2014 12:08 PM, Pavel Snajdr wrote:
> 
>>> A btw hlavni vyhoda ukladani dumpu po siti - nepotrebuju ten
>>> node nejak rozdejchavat na to, abych mohl zacit analyzovat
>>> dump.
> 
>>> Kdyz se mi povede vymyslet, co ted vymejslim s Infinibandem a 
>>> distribuovanym replikovanim ZFS, tak by se to melo projevit 
>>> naplno jako vyhoda - VPS budou nekde nabihat, zatim co ja muzu 
>>> analyzovat, proc to sletelo a nekdo jinej muze davat dokupy
>>> ten server primo (ssh/reseni se supportem v DC/...).
> 
>>> Kdezto s lokalnim kdumpem musim vzdycky tu masinu privyst k 
>>> zivotu a pak z toho tech 256GB vytahnout na misto, kde budu
>>> mit a] too lset b] dost RAM na analyzu. Ted si predstav tahat
>>> to ven z nodu po gigabitu...
> 
>>> Jeste ke kdumpum a proc ma smysl je delat:
> 
>>> Diky tomu, ze budeme mit kompletni image ram z momentu padu 
>>> serveru (pripadne se da dump vyvolat i pri zfs deadlocku
>>> atd.), jsme schopny potom post-mortem cokoliv dohledat a
>>> dodebugovat. Odpada tim nutnost na milionkrat se snazit ten bug
>>> reprodukovat.
> 
>>> A kdyz budeme pracovat ve spolupraci s lidma od OpenVZ / ZFS / 
>>> Red Hatu, coz postupne zacinam minimalne ja osobne vic a vic 
>>> (myslim ze muj nick uz znaji celkem duverne :D) delat, umozni
>>> nam to prijit k pomyslnymu stolu vyvoje tech opensource
>>> projektu, co nas zajimaji, s cennyma debug informacema na,
>>> ktery urychly zasadne hledani problemu.
> 
>>> Takze v tom vidim nejenom nutnost, ale v podstate i metodu,
>>> jak pomoct nejenom sobe, ale i celymu ekosystemu.
> 
>>> /snajpa
> 
>>> /snajpa
> 
>>> On 04/02/2014 12:01 PM, Pavel Snajdr wrote:
> 
>>> On 04/02/2014 11:58 AM, Stanislav Petr wrote:
> 
>>> Tak vytvorit servisni oddil na nejakym stavajicim disku nebo 
>>> zkusit zauvazovat nad pouzitim USB3 externi flash (sileny, ja 
>>> vim, ale mohlo by to fungovat levne).
> 
>>> Vsak prave, ze uz jsem varianty zvazoval a vzhledem k tomu, ze 
>>> 10GE se blizi tak jako tak. 1GE je tragicky malo, navic pri 
>>> zalohach uz 1GE dneska je limit, "zejtra" bude totalni limit
>>> pri prechodu z rsyncu na zfs send/receive - pak budou zalohy, 
>>> restory, migrace opravdu vyuzivat to, ze budou sedet na rychly 
>>> siti. Ab ych udelal misto na 256GB blbosti lokalne na kazdym 
>>> nodu, musel bych vyrazne zmensit cast SSD, ktera se pouziva
>>> pro level 2 read caching (a to se hodne pozna v momentech, kdy
>>> je na tom stroji min ramky, nez je idealni). Delani mista na
>>> rotacnich diskach je blbost, protoze by to rozhodilo tvar
>>> celyho zpoolu. Tak nejak mi nevysla jina moznost, nez
>>> NFSv3+10GE... /snajpa
> 
> 
>>> Stanislav Petr Tel.: +420 602 620 026 -----Original
>>> Message----- From: community-list-bounces at lists.vpsfree.cz 
>>> [mailto:community-list-bounces at lists.vpsfree.cz] On Behalf Of 
>>> Pavel Snajdr Sent: Wednesday, April 02, 2014 11:55 AM To: 
>>> vpsFree.cz <http://vpsFree.cz> Community list Su bject: Re: 
>>> [vpsFree.cz <http://vpsFree.cz>: community-list] Vypadky a 
>>> problemy - checklist Disk uz neni kam dat :) S pozdravem Pavel 
>>> Snajdr +421 948 816 186 | +420 720 107 791 | 110-010-956 CTO
>>> of Relbit | Predseda vpsFree.cz <http://vpsFree.cz>, o.s. |
>>> RHCE http://relbit.com | http://vpsfree.cz |
>>> https://www.redhat.com On 04/02/2014 11:49 AM, Stanislav Petr
>>> wrote:
> 
>>> Hele k tomu kdumpu a zfs. Jednoduchy a elegantni reseni -
>>> budto pridat jeden disk nebo oddil s EXT a ten vyhradit pro
>>> kdump. Tim ti odpadne problém se zapisovanim kdumpu do zfs
>>> kterej není podporovanej. Stanislav Petr Tel.: +420 602 620
>>> 026 -----Original Message----- From : 
>>> community-list-bounces at lists.vpsfree.cz 
>>> [mailto:community-list-bounces at lists.vpsfree.cz] On Behalf Of 
>>> Pavel Snajdr Sent: Wednesday, April 02, 2014 11:38 AM To: 
>>> vpsFree.cz <http://vpsFree.cz> Community list Subject: 
>>> [vpsFree.cz <http://vpsFree.cz>: community-list] Vypadky a 
>>> problemy - checklist Caute, vim, ze nekteri trpite zhruba
>>> stejne, jako ja, tak jak jsme na tom ted, a jak dlouho nas ten
>>> shitstorm jeste ceka, nez pomine? padajici ipv6: bird, snad
>>> pobezi, uvidime dal, prichozi ddosy: in progress, cosi se mozna
>>> rysuje ve spolupraci s Master Internet, nebo pripadne custom
>>> solution s BGP blackholingem, kernel panic: ted je tam kernel,
>>> kterej pres vsechny jeho chyby pokud vim na panic nepada, takze
>>> od nej je klid a dalsi kernel uz by mel projit lepsim
>>> testovanim, nez ho nasadime, zfs deadlock: po poupdatovani
>>> codebase napric vsema serverama se m i uz dari chytit stabilni
>>> ZFS setup na vsech nodech, takze se ZFS uz nebudou problemy
>>> (dokud se s nim zase nerozhodneme delat psi kusy, ale to pujde
>>> uz pres QA masinu) QA: minimalne jsem se dost nastval na to,
>>> aby mi nevadilo, ze vyhodime jednu velkou silnou masinu na
>>> testovani, takze ohledne QA se veci snad taky pohnou. kdump:
>>> potrebujeme 10GE infratrukturu po ktery sbirat memory dumpy
>>> odpadlejch nodu, bez toho je kdump celkem useless,
> 
> 
>>> -> seznam je to nepekne nekratkej, nastesti vsechno uz ve
>>> stavu pri nejhorsim "znam reseni", n o uz by se na nej nemuselo
>>> nic chvili pridavat, protoze jinak uz mne z toho chytaji
>>> infarktovy stavy... Navic mam tuseni, ze hranice trpelivosti,
>>> nez zacnou lidi hromadne migrovat veci pryc, je tak nejak
>>> blizko a ted uz to proste musi vsechno bezet bez problemu, i za
>>> cenu odlozeni nejakych inovaci na par mesicu. 
>>> ------------------------------------------------------------------------
>
>>>  Community-list mailing list Community-list at lists.vpsfree.cz 
>>> http://lists.vpsfree.cz/listinfo/community-list
> 
> 
> 
>>> ------------------------------------------------------------------------
>
>>>  Community-list mailing list Community-list at lists.vpsfree.cz 
>>> http://lists.vpsfree.cz/listinfo/community-list
> 
>>> ------------------------------------------------------------------------
>
>>> 
>>> 
> 
>> Community-list
>>> mailing list Community-list at lists.vpsfree.cz 
>>> http://lists.vpsfree.cz/listinfo/community-list
> 
> 
> 
>>> ------------------------------------------------------------------------
>
>>> 
>>> 
> 
>> Community-list
>>> mailing list Community-list at lists.vpsfree.cz 
>>> http://lists.vpsfree.cz/listinfo/community-list
> 
>>> ------------------------------------------------------------------------
>
>>> 
>>> 
> 
>> Community-list
>>> mailing list Community-list at lists.vpsfree.cz 
>>> http://lists.vpsfree.cz/listinfo/community-list
> 
>>> ------------------------------------------------------------------------
>
>>> 
>>> 
> 
>> Community-list
>>> mailing list Community-list at lists.vpsfree.cz 
>>> http://lists.vpsfree.cz/listinfo/community-list
> 
> 
>>> ------------------------------------------------------------------------
>
>>>  Community-list mailing list Community-list at lists.vpsfree.cz 
>>> http://lists.vpsfree.cz/listinfo/community-list
> 
> 
>>> ------------------------------------------------------------------------
>
>>>  Community-list mailing list Community-list at lists.vpsfree.cz<
>>> br />http://lists.vpsfree.cz/listinfo/community-list
> 
> 
>>> -- Odesláno z mého telefonu s Androidem pomocí pošty K-9 Mail. 
>>> Omluvte prosím moji stručnost.
> 
> 
>>> _______________________________________________ Community-list 
>>> mailing list Community-list at lists.vpsfree.cz 
>>> http://lists.vpsfree.cz/listinfo/community-list
> 
>> _______________________________________________ Community-list 
>> mailing list Community-list at lists.vpsfree.cz 
>> http://lists.vpsfree.cz/listinfo/community-list
> 
> _______________________________________________ Community-list
> mailing list Community-list at lists.vpsfree.cz 
> http://lists.vpsfree.cz/listinfo/community-list
> 
> 
> 
> _______________________________________________ Community-list
> mailing list Community-list at lists.vpsfree.cz 
> http://lists.vpsfree.cz/listinfo/community-list
> 
-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1
Comment: Using GnuPG with Thunderbird - http://www.enigmail.net/

iF4EAREIAAYFAlNHi0oACgkQMBKdi9lkZ6rVyQEAxBF/Oy0MPivfflA1+u+eNRi3
Be8QvtmLScGn9FQz8ZUA/2BF/5JO+NrPpeH7Msqz4e+br9LMjURv2Ng/VtQ98oYd
=uEIm
-----END PGP SIGNATURE-----



More information about the Community-list mailing list