<div dir="ltr">Poutave vysvetleni, dobra prace diky.</div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">čt 13. 8. 2020 v 13:02 odesílatel Pavel Snajdr <<a href="mailto:snajpa@snajpa.net">snajpa@snajpa.net</a>> napsal:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Ahojte,<br>
<br>
sliboval jsem (vetsinou off-list), ze shnu pak resenici s pameti na <br>
vpsAdminOS, tak tady to je :)<br>
<br>
Kdyz chce programator dneska z aplikace pracovat s velkym souborem, je <br>
docela rozsirenym pristupem, si takovy soubor namapovat do pameti pomoci <br>
mmap(2) syscallu.<br>
<br>
To zpusobi, ze se soubor ocitne ve virtualnim pametovem prostoru <br>
procesu, tj. ten program si pak muze sahat do toho souboru prostym <br>
pristupovanim do pameti (nabizi se teda snadny ukladani napr. Cckovych <br>
structu do souboru, pristup pres pointerovou aritmetiku, atd.).<br>
<br>
Linux cachuje takovy napamovany soubor po strankach, protoze samotnou <br>
pamet spravuje po strankach (1 stranka pameti je na x64 velka 4 kB, huge <br>
pages jsou potom dalsi extra story na jindy...). Jakmile aplikace chce <br>
precist nejaka data, Linux na pozadi, pokud uz to neudelal, pro ta data <br>
alokuje stranku fyzicke pameti, aby ta data mela realne, kde sedet, <br>
precte je do te stranky z disku (nebo kde ten soubor je) a pak tu <br>
stranku namapuje do prislusneho mista virtualniho pametoveho prostoru <br>
naseho procesu, ktery ta data cte.<br>
<br>
Jadro vede mapovane stranky v evidenci pomoci LRU listu, coz je datova <br>
struktura, seznam, ktery se vyznacuje tim, ze vede v evidenci, ktera <br>
polozka byla pouzita naposled (tak, ze se meni pri jejim pouziti jeji <br>
poradi na zacatek seznamu).<br>
<br>
Kdyz vsechno funguje jak ma, v realne fyzicke pameti jsou pouzivana <br>
ctena data a jeste nezapsane "pospinene" (dirty) stranky, do kterych se <br>
psalo, tj. je u nich naplanovano, aby se co nejrychleji dostaly na disk <br>
(pokud teda cely soubor nebyl otevreny s flagem O_SYNC, nebo podobne, co <br>
by vynutilo kazdou zmenu zapsat na disk ihned, nez Linux vrati kontrolu <br>
aplikaci pri tom zapisu do mapovaneho souboru; to neni tak caste a to je <br>
nam ted "jedno").<br>
<br>
Zapis je nastesti vyreseny dobre, Linux ma na to mechanismus, kteremu <br>
rika "writeback throttle"; kdyz detekuje, ze se zacina RAM plnit vic, <br>
nez je zdravo, zacne aplikaci ty zapisujici pristupy adekvatne <br>
zpomalovat. Tohle "impedancni prizpusobeni" funguje vcelku dobre, navic <br>
funguje dostatecne dobre i pod memory cgroup.<br>
<br>
Memory cgroup je mechanismus, kterym omezujeme pridelenou pamet <br>
kontejnerum pod Linuxem - je to volitelna sada dalsich pocitadel vyuziti <br>
pameti, nad zakladni systemove, plus vydeleni ukazatelu na LRU, <br>
writeback a dalsi cache, aby se dalo pekne vest takovehle seznamy <br>
stranek v oddelene, mimojine aby bylo jasne, co komu patri, kdyz dojde <br>
cas tu pamet jednou odklidit. Ale taky, aby se dalo hlidat maximalni <br>
vyuziti pameti na ruzne caches - zdaleka nejen - kvuli prave mapovanym <br>
souborum.<br>
<br>
Potud vsechno dobre.<br>
<br>
To nam tak system nabehne, pospousti se na nem stovka VPSek, vsechny <br>
aplikace se krasne rozbehnou, nektere si namapujou soubory, nektere do <br>
nich vesele zapisuji data...<br>
<br>
System muze bezet klidne mesice bez problemu, vsechno stiha, v pohode. <br>
Ty seznamy jsou bezne docela kratke, takze sbirka jadernych threadu <br>
"kswapd" je na pozadi pekne stiha prochazet a odklizet, jak se postupne <br>
nektere memory cgroupy dostavaji s pameti do uzkych.<br>
<br>
Koneckoncu, 4 GB RAM (na jeden kontejner) prelozeno na 4 kB stranky <br>
znamena teoretickou maximalni delku jednoho seznamu 1M polozek. To se na <br>
2+ gigahertzovych CPU preci stihne projit rychle, ze.<br>
<br>
No a pak se stane, ze po treba dvou mesicich behu systemu najednou <br>
zoufaly clen pise, ze mu v kontejneru dochazi pamet, pritom at pocita, <br>
jak pocita, nemuze se dopocitat, ze by to zabiraly aplikace - je videt, <br>
ze je to tim, ze caches nechteji odcouvavat.<br>
<br>
Hm, docela spatenka, jak to mame opravit, kdyz to trva tak dlouho, nez <br>
se problem projevi? :-D<br>
<br>
Tady nekde bych mel podotknout, ze abych byl schopny to takhle pekne <br>
vysvetlit, musel jsem doprojit celou cestu do vyresena, takze ted se to <br>
jevi zpetne jako trivka, ale nez jsem prisel na to, z ktere strany ten <br>
problem pujde aspon nejak resit...<br>
<br>
Kdyz se clovek na takovy trpici system prihlasi, vidi tam zpravidla <br>
kswapd0 na 100% a kdyz ma ta masina dva fyzicke CPU, tak tam vidi <br>
vetsinou i kswapd1 v tom samem stavu.<br>
<br>
V dmesgu jsou videt out of memory hlasky z jednotlivych kontejneru, jak <br>
narazeji na neodkliditelne caches a jadro zoufale zabiji stare procesy, <br>
aby udelalo misto pro dalsi.<br>
<br>
V tech OOM hlaskach je videt pokazde i stack trace, odkud ta OOM udalost <br>
z jadra prisla - vetsina z nich byla vyvolana kvuli cteni do mmaped <br>
souboru, coz se pozna tak, ze v tom stacku jsou videt funkce pridavajici <br>
LRU stranky na seznam te memory cgroupe.<br>
<br>
Tak si rikam, hm, to ma preci snadne reseni, nebudeme uctovat mapovanou <br>
pamet do memory cgroup clenu, ale nechame ji v root memory cgroup...<br>
<br>
Okay, to by mohlo fungovat, ze?<br>
<br>
..a zase, kswapd0/1 na 100%...<br>
<br>
To uz jsem se zacal seriozneji zajimat, co se to vlastne deje, co delaji <br>
tak dlouho a jak to cele funguje, kdyz to neslo smaznout "izy hackem".<br>
<br>
Napad to byl dobry, fungoval by, nebyt mensi drobnosti:<br>
<br>
kswapd, kdyz odklizeji caches na pozadi, prohledavaji memory cgroupy <br>
stylem "dej mi takovou, ktera zere nejvic a tu odklidime, kdyz to nebude <br>
stacit, pujdem na dalsi".<br>
<br>
Tj. pokud se objevi jedna cgroup, ktera je vetsi a ma toho vzdycky vic k <br>
odklizeni, muze se vzdycky kswapd zahojit na ni a k dalsim se ani <br>
nedostat.<br>
<br>
Jedine, kdy se odklizi pamet uplne primo z te memory cgroupy, je tzv. <br>
"direct reclaim", cesta kodu primo v momente, kdy je potreba alokovat - <br>
ale v tu chvili neni tolik casu na uklizeni, tak se jadro zas tak <br>
nesnazi a nekdy to muze vzdat predcasne a rict, ze pamet nenaslo a <br>
vyvola OOM situaci v postizene memory cgroupe.<br>
<br>
Hmm... okay, takhle by to neslo, tak zkusme mmaped pamet neuctovat <br>
cgroupam vubec a nechme ji v zakladnich systemovych seznamech...<br>
<br>
A po trochu zapaseni, bo se v jadre s memory cgroup nepocita, ze by <br>
nahodou mmaped pamet nebyla uctovana zadne memory cgroupe, je vyreseno, <br>
odchod na parek!<br>
<br>
...do chvile, nez tim posleme celou masinu out-of-memory a OOM chyby <br>
zacnou prichazet odkudkoliv, ne jen z mmaped readu odzpod z <br>
mem-cgroup...<br>
<br>
Totiz kdyz byly mmaped soubory uctovany na jeden seznam, ktery neni v <br>
memory cgroupe, myslelo si jadro, ze ma hodne volnou ruku v tom, co si <br>
muze dovolit nechat nacachovane - ale v tom je potom mensi caveat se <br>
ZFS... postupny nahodny random access pattern k datum mmaped souboru <br>
nadela z ARC slab caches fragmentovane reseto, jeste kdyz se drzi ty <br>
kousky z tech puvodne nactenych dat pri zivote "pripinovanim" na jeden <br>
velky seznam, ktery nema duvod couvat, protoze host ma preci vsechnu <br>
pamet k dispozici bez limitu :D<br>
<br>
No pak a chudaci kswapd, kdyz si s tim bordelem maji nejak poradit a <br>
odklidit to, *obzvlast* kdyz jsou jen dva a kdyz pod nima mame (konecne <br>
spravne nastavene se spravnym ashiftem) NVMe pole... na te staging node <br>
(nyni node1.stg) se tak darilo zaplnit RAM az skoro do mrtva.<br>
<br>
Takze co s tim? :)<br>
<br>
Snadna reseni dosla, bude potreba odklizet ty seznamy <br>
per-limitovana-memory-cgroup.<br>
<br>
Na nekolik iteraci jsem nakonec dospel k patchi, ktery spusti <br>
per-NUMA-node "ksoftlimd" thready, pro kazdou memory cgroupu, ktera ma <br>
nastaveny soft_limit.<br>
<br>
Ksoftlimd pak dela presne toto - prochazi seznamy svoji memory cgroupy a <br>
drzi si je okolo soft_limitu.<br>
<br>
Kswapd maji o praci s memory cgroupama min, pokud je jadro nastavene v <br>
rezimu, ze ma ksoftlimd poustet automaticky (da se tez spoustet jen <br>
rucne).<br>
<br>
My jsme zatim defaultne zvolili soft_limit jako watermark, nad ktery se <br>
ma ksoftlimd snazit vic odklizet, nastavujeme ho na 80% pameti <br>
kontejneru - ale do budoucna mozna tohle jeste predelam na nejakou vetsi <br>
automatiku, podle toho, jak kde se ukazou pripadne nedostatky.<br>
<br>
Tedy, vysledna situace je, ze pokud aplikace zerou min, jak 80% pameti, <br>
ale je co drzet v RAM jako cache, bude mit kontejner vyuzito okolo tech <br>
80% - bude to videt normalne jako aplikacni pamet a zbytek jako caches. <br>
Uz by se nemelo stat, ze vyuziti stoupne az ke 100% kvuli caches a ze <br>
dojde k OOM a zabijeni procesu.<br>
<br>
Zaverem bych jeste zminil ty patche:<br>
<br>
Pokus mmaped soubory nauctovat root mem cgroupe:<br>
<br>
<a href="https://github.com/vpsfreecz/linux/commit/d42232f89795" rel="noreferrer" target="_blank">https://github.com/vpsfreecz/linux/commit/d42232f89795</a><br>
<br>
Pokus mmaped soubory mem cgroupam neuctovat vubec (popis commitu je blbe <br>
a celkove je nedocisteny, nebyl jsem s tim spokojeny a nechtel jsem tim <br>
travit vic casu, radsi jsem koumal, co dal, at the time...) -><br>
<br>
<a href="https://github.com/vpsfreecz/linux/commit/c10ae4a7ef95" rel="noreferrer" target="_blank">https://github.com/vpsfreecz/linux/commit/c10ae4a7ef95</a><br>
<br>
A finalne, aktualne nasazena verze ksoftlimd patche:<br>
<br>
<a href="https://github.com/vpsfreecz/linux/commit/e04b3f9cda1d" rel="noreferrer" target="_blank">https://github.com/vpsfreecz/linux/commit/e04b3f9cda1d</a><br>
<br>
A uplne-uplne zaverem: linux kernel neni advanced black magic. Je to jen <br>
strasne velka a nekdy dost neforemna kupa C kodu, ktery potrebuje <br>
schopne a ochotne instalatery.<br>
<br>
V koncinach memory cgroup + memory managementu je teda hodne, co <br>
zlepsovat, a vubec to neni raketova veda... Teda obecne, na <br>
kontejnerizace v Linuxu je dost co resit.<br>
<br>
Takze kdybyste s tim jadernym vyvojem nekdo chtel pomoct, stavte se na <br>
IRC, nebo v Base48 v Brne pokecat, neco vymyslime, bude to zabava, trust <br>
me ;)<br>
<br>
/snajpa<br>
_______________________________________________<br>
Community-list mailing list<br>
<a href="mailto:Community-list@lists.vpsfree.cz" target="_blank">Community-list@lists.vpsfree.cz</a><br>
<a href="http://lists.vpsfree.cz/listinfo/community-list" rel="noreferrer" target="_blank">http://lists.vpsfree.cz/listinfo/community-list</a><br>
</blockquote></div>