Datum a čas: 2024-10-22 01:05 CEST
Očekavaná délka: 35 minut
Oznámení se týká serverů: node21.prg
Typ výpadku: system_restart
Důvod: Restart kvůli chybě s network namespaces
Výpadek řeší: Pavel Šnajdr
Kernel z paměti neuvoňuje nepoužité network namespaces a pomalu nám tak ubývá volná paměť, nezbývá než to restartovat.
ENGLISH:
Date and time: 2024-10-22 01:05 CEST
Expected duration: 35 minutes
Affected systems: node21.prg
Outage type: system_restart
Reason: Reboot due to a bug in network namespaces
Handled by: Pavel Šnajdr
The kernel is not freeing unused network namespaces, which leads to memory being leaked. We must reboot to fix it.
-----BEGIN BASE64 ENCODED PARSEABLE JSON-----
eyJpZCI6MTE1MywidHlwZSI6Im91dGFnZSIsImJlZ2luc19hdCI6IjIwMjQt
MTAtMjJUMDE6MDU6MDArMDI6MDAiLCJkdXJhdGlvbiI6MzUsImltcGFjdCI6
InN5c3RlbV9yZXN0YXJ0IiwiZW50aXRpZXMiOlt7Im5hbWUiOiJOb2RlIiwi
aWQiOjEyMiwibGFiZWwiOiJub2RlMjEucHJnIn1dLCJoYW5kbGVycyI6WyJQ
YXZlbCDFoG5hamRyIl0sInRyYW5zbGF0aW9ucyI6eyJlbiI6eyJzdW1tYXJ5
IjoiUmVib290IGR1ZSB0byBhIGJ1ZyBpbiBuZXR3b3JrIG5hbWVzcGFjZXMi
LCJkZXNjcmlwdGlvbiI6IlRoZSBrZXJuZWwgaXMgbm90IGZyZWVpbmcgdW51
c2VkIG5ldHdvcmsgbmFtZXNwYWNlcywgd2hpY2ggbGVhZHMgdG8gbWVtb3J5
IGJlaW5nIGxlYWtlZC4gV2UgbXVzdCByZWJvb3QgdG8gZml4IGl0LiJ9LCJj
cyI6eyJzdW1tYXJ5IjoiUmVzdGFydCBrdsWvbGkgY2h5YsSbIHMgbmV0d29y
ayBuYW1lc3BhY2VzIiwiZGVzY3JpcHRpb24iOiJLZXJuZWwgeiBwYW3Em3Rp
IG5ldXZvxYh1amUgbmVwb3XFvml0w6kgbmV0d29yayBuYW1lc3BhY2VzIGEg
cG9tYWx1IG7DoW0gdGFrIHViw712w6Egdm9sbsOhIHBhbcSbxaUsIG5lemLD
vXbDoSBuZcW+IHRvIHJlc3RhcnRvdmF0LiJ9fX0=
-----END BASE64 ENCODED PARSEABLE JSON-----
Datum a čas: 2024-10-15 01:05 CEST
Očekavaná délka: 35 minut
Oznámení se týká serverů: node19.prg
Typ výpadku: system_restart
Důvod: Restart kvůli bugu ZFS v arc_prune
Výpadek řeší: Jakub Skokan
Proces arc_prune se zaseknul, do restartu prosím nepouštějte obnovy ze záloh.
ENGLISH:
Date and time: 2024-10-15 01:05 CEST
Expected duration: 35 minutes
Affected systems: node19.prg
Outage type: system_restart
Reason: Reboot due to a ZFS bug in arc_prune
Handled by: Jakub Skokan
arc_prune process got stuck, please avoid restores from backups until the machine is rebooted.
-----BEGIN BASE64 ENCODED PARSEABLE JSON-----
eyJpZCI6MTE1MSwidHlwZSI6Im91dGFnZSIsImJlZ2luc19hdCI6IjIwMjQt
MTAtMTVUMDE6MDU6MDArMDI6MDAiLCJkdXJhdGlvbiI6MzUsImltcGFjdCI6
InN5c3RlbV9yZXN0YXJ0IiwiZW50aXRpZXMiOlt7Im5hbWUiOiJOb2RlIiwi
aWQiOjEyMCwibGFiZWwiOiJub2RlMTkucHJnIn1dLCJoYW5kbGVycyI6WyJK
YWt1YiBTa29rYW4iXSwidHJhbnNsYXRpb25zIjp7ImVuIjp7InN1bW1hcnki
OiJSZWJvb3QgZHVlIHRvIGEgWkZTIGJ1ZyBpbiBhcmNfcHJ1bmUiLCJkZXNj
cmlwdGlvbiI6ImFyY19wcnVuZSBwcm9jZXNzIGdvdCBzdHVjaywgcGxlYXNl
IGF2b2lkIHJlc3RvcmVzIGZyb20gYmFja3VwcyB1bnRpbCB0aGUgbWFjaGlu
ZSBpcyByZWJvb3RlZC4ifSwiY3MiOnsic3VtbWFyeSI6IlJlc3RhcnQga3bF
r2xpIGJ1Z3UgWkZTIHYgYXJjX3BydW5lIiwiZGVzY3JpcHRpb24iOiJQcm9j
ZXMgYXJjX3BydW5lIHNlIHphc2VrbnVsLCBkbyByZXN0YXJ0dSBwcm9zw61t
IG5lcG91xaF0xJtqdGUgb2Jub3Z5IHplIHrDoWxvaC4ifX19
-----END BASE64 ENCODED PARSEABLE JSON-----
Datum a čas: 2024-10-08 06:14 CEST
Očekavaná délka: 15 minut
Oznámení se týká serverů: node6.brq
Typ výpadku: system_reset
Důvod: ZFS bug
Výpadek řeší: Jakub Skokan
Vratili jsme to na starsi verzi kernelu a ZFS
ENGLISH:
Date and time: 2024-10-08 06:14 CEST
Expected duration: 15 minutes
Affected systems: node6.brq
Outage type: system_reset
Reason: ZFS bug
Handled by: Jakub Skokan
Rolled back to older kernel and ZFS version
-----BEGIN BASE64 ENCODED PARSEABLE JSON-----
eyJpZCI6MTE0OSwidHlwZSI6Im91dGFnZSIsImJlZ2luc19hdCI6IjIwMjQt
MTAtMDhUMDY6MTQ6MDArMDI6MDAiLCJkdXJhdGlvbiI6MTUsImltcGFjdCI6
InN5c3RlbV9yZXNldCIsImVudGl0aWVzIjpbeyJuYW1lIjoiTm9kZSIsImlk
IjoyMTUsImxhYmVsIjoibm9kZTYuYnJxIn1dLCJoYW5kbGVycyI6WyJKYWt1
YiBTa29rYW4iXSwidHJhbnNsYXRpb25zIjp7ImVuIjp7InN1bW1hcnkiOiJa
RlMgYnVnIiwiZGVzY3JpcHRpb24iOiJSb2xsZWQgYmFjayB0byBvbGRlciBr
ZXJuZWwgYW5kIFpGUyB2ZXJzaW9uIn0sImNzIjp7InN1bW1hcnkiOiJaRlMg
YnVnIiwiZGVzY3JpcHRpb24iOiJWcmF0aWxpIGpzbWUgdG8gbmEgc3RhcnNp
IHZlcnppIGtlcm5lbHUgYSBaRlMifX19
-----END BASE64 ENCODED PARSEABLE JSON-----