[vpsFree.cz: community-list] Výpadek konektivity 2018-08-03 13:50-14:30

Pavel Snajdr snajpa at snajpa.net
Sat Aug 4 11:24:23 CEST 2018


Ahoj,

no to jsem zapomnel dodat, ze diry na grafech jsou proto, ze Munin bezi z Prahy.

To stejne s vpsAdminem, kdyz je vybombena linka v Praze, pak cervena na hlavni strance hlavne Brno, protoze se do Prahy nedostane pro naklad prace a timeoutuje keep alive interval, podle kteryho indikuji pak ty ikonky stav nodu.

Aby se to dalo vyresit, je potreba, aby se Master pohnul a zacli resit to, co jsem s nima otevrel uz v dubnu - silnejsi linky, 40G propoje mezi racky v Praze a prechod do racku v Brne, abychom si tam taky mohli postavit planovany sitovy setup.

V Praze bude tak celkem 6ks Dell S4048-ON a aspon tri kusy spare (protoze jsou to bazarovky a maji v sobe zabugovane Rangeley Atomy - v praxi s nimi tyhle Dell switche neodchazeji, ale neni dobre na to uplne spolejhat). 2ks budou delat edge, tj. hlavne starat se o uplinky, kazfy v jednom racku. A pak v kazdem racku budou 2 top-of-rack switche, kam budou napojene nody.

V tuhle chvili mame v Praze instalovane dva top of racky v druhem racku, kam jsme navesili staging a kde budeme mit migracni nodu na presouvani produkce na vpsAdminOS.

Z edge switchu pujde port mirror na automatizovanou detekci DDoSu, mel by zabirat podle vseho do par jednotek sekund.

Ale jak rikam, nejdriv se musi pohnout Masteri a pripravit nam 40tkovy propoje.

Nejlip pomoct ted jde testovanim stagingu, at muzeme zacit resit migraci produkce - protoze to, ze nam nebezi Docker, zpusobuje, ze uz peknych par mesicu nerosteme a jen oscilujeme okolo 1300 clenu.

Na veci jako tlusta spolecna linka, beefy networking a podobne pomaha prave jen vetsi clenska zakladna, tedy hlavne vetsi mesicni rozpocet na konektivitu a network gear.

Chceme si tahat/pronajimat vlastni linky, da se to, ale nejsme na to jeste dost velci, aby to rozpoctove pak nebylo uplne nakrev (tedy, ted je to spis jeste nerealne, na krev to bude tak pri 1600 clenech, kdybychom meli resit NIX, Peering i tranzit).

/snajpa

> On 4 Aug 2018, at 07:50, zd nex <zdnexnet at gmail.com> wrote:
> 
> Ahoj,
> 
> no já bych si toho reálně nevšiml (byly to asi krátké výpadky), pokud bychom tam neměli právě to DNS made easy pro failover, které bychom chtěli používat. Jinak v pohodě, vypadá to, že to i v tu dobu v celku "jelo". Spíše mi šlo o to, zda to v tom Brně jelo, jelikož jsem právě chtěl řešit to, že bych přepínal na jiný server v jiné lokaci. Akorát se ukázalo, že zřejmě na node3 v Brně, to také nejelo a tak jsem si uvědomil, že i když bychom to použili, tak  by to v tomto případě nepomohlo.
> 
> Jinak jsem se chtěl zeptat, zda se toto dá trochu řešit nějakým lepším HW/zálohou, možná bychom mohli přispět?
> 
> Díky za info.
> 
> 
> 
> Dne 3. srpna 2018 20:33 Pavel Snajdr <snajpa at snajpa.net> napsal(a):
>> Ahoj,
>> 
>> DDoS sel na Prahu, na infru v Brne by to nemelo mit dosah, pokud nepujde tolik flows, ze by to ucpalo vsechny linky Master Internet; to se zatim nestalo.
>> 
>> No jako, dneska mi dali... borec v Praze na supportu mel tak laxni pristup, ze doufam, ze byl dneska v praci naposled.
>> 
>> Paradoxne pak prave situaci zachranoval supportak z Brna...
>> 
>> Krom toho nezabraly BGP blackholes, jinak bych to bloknul od nas, ale to se taky nedalo, protoze maji evidentne zrejme nezvladnutou migraci na nove prvky, kdy prenesou tak cca takovy kus konfigu, aby to sotva navazalo BGP session, ale filtry uz jsme museli doresovat po migraci a na nefunkcni blackholing jsme dosli az ted.
>> 
>> Do toho jsem schytal paradni upal, tak jsem byl rad, ze jsem to poresil, ale neposlal jsem outage notice, za co se omlouvam.
>> 
>> /snajpa
>> 
>> 
>> 
>>> On 3 Aug 2018, at 18:28, zd nex <zdnexnet at gmail.com> wrote:
>>> 
>>> Ahojte,
>>> 
>>> chtěl jsem se zeptat jestli dnes vypadla celá konektivita jak v Praze tak v Brně kolem 13:50 až 14:30? Máte někdo bližší informace? Procházel jsem munin a je tam u některých node prázdné okno a nestat u velkého množství spojení ukazuje failed. Plánujeme totiž začít používat DNS Made easy a jaksi se dnes ukázalo, že to stačit pro failover nebude i když jsou to jiné lokality.
>>> 
>>> -- 
>>> S pozdravem, 
>>> 
>>> Zdeněk Dlauhý
>>> Web: www.pripravto.cz
>>> _______________________________________________
>>> Community-list mailing list
>>> Community-list at lists.vpsfree.cz
>>> http://lists.vpsfree.cz/listinfo/community-list
>> 
>> _______________________________________________
>> Community-list mailing list
>> Community-list at lists.vpsfree.cz
>> http://lists.vpsfree.cz/listinfo/community-list
>> 
> 
> _______________________________________________
> Community-list mailing list
> Community-list at lists.vpsfree.cz
> http://lists.vpsfree.cz/listinfo/community-list
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.vpsfree.cz/pipermail/community-list/attachments/20180804/1f04a3e0/attachment-0001.html>


More information about the Community-list mailing list