Update: Schlechter Datendurchsatz, Verbindungsabbrüche

Revocere! Ich widerrufe!

Ich hatte das Symptom und die Effekte richtig beschrieben, nur mit meiner Erklärung lag ich daneben. Ausgelöst wurde unser aktuelles Problem durch das (halbautomatische) Einspielen von Betriebssystemupdates - in diesem Fall ein neuer Kernel. Mein Trugschluss bestand nun darin, anzunehmen "Foreshadow → neuer Kernel → Performanceverlust". Der neue Kernel an sich war unschädlich. Das Einspielen löste aber den Neubau des Batman-Kernelmoduls aus. Auf einigen Supernodes wurden dabei einige Fehlerbereinigungen aus der Vergangenheit nicht berücksichtigt, sodass ein längst reparierter Fehler zurück kam. Der Fehler löste Netzwerkpaketstürme aus, die widerum die CPU überforderten und von mir als Foreshadow-bedingter Performanceverlust fehlinterpretiert wurde.

Danke an dieser Stelle an Leo, der in einer Nachtschicht das Problem analysierte und alles wieder gerade bog.

- Oliver

Leo schrieb:

Es stellt sich heraus, dass nicht die CPU-Patches ein Problem darstellen, sondern dass das Problem vom April/Mai mit den kaputten TransGlobal-Tabellen, die für Paketstürme sorgen, wieder aufgetreten ist.

Um das Problem zu erkennen, ist dieses Dashboard relativ gut geeignet:

https://stats.ffh.zone/d/WOa5qPZiz/tt-req-res?refresh=1m&orgId=1&from=now-7d&to=now

Es zeichnet die Anzahl der TT-Pakete auf. Die Bedeutung der unterschiedlichen Anfrage-/Antwortpakete ist dabei relativ irrelevant. Wichtig ist aber, dass wenn die Gesamtzahl (2. Graph von oben, grüne Kurve) der TT-Pakete über 2000 Pkt/s steigt, dass dann ein Problem vorliegt.

Paketraten von über 60000 Pkt/s wie wir sie in den letzten Tagen hatten, sind schlicht und ergreifend zu viel für die CPUs auf unseren Supernodes.

Um ein Gefühl für die Zahlen zu bekommen:
  • Mit 150-200 Mbit/s machen wir ca. 15.000 Pkt/s auf allen Supernodes. Wir haben auf den Supernodes bei diesen Werten so eine CPU-Auslastung von ~55%.
  • Rechnet man die Paketrate auf eine CPU-Auslastung von 100% hoch, dann ergibt sich eine Rate von ~27.000 Pkt/s.
  • Von den 15.000 Pkt/s sind ~2.000 Pkt/s normalerweise TT-Pakete.
  • Wenn jetz allerdings die TT-Pakete auf 40.000 Pkt/s ansteigen, dann wird die Luft eng auf den Supernodes. 53.000 Pkt/s sind einfach zu viel.

Wie das Problem gelöst wurde:
  • Ein Ausschalten aller VPN-Server für wenige Minuten führt dazu, dass sich die Tabellen auf nahezu allen Geräten leeren. Die kaputten Einträge, die sich überall im Mesh verteilt haben und anders schlecht zu eliminieren sind, verschwinden so nach ein paar Minuten da sie überall in ihren Timeout laufen und niemand die Information mehr an Andere weitergibt.

Viele Grüße, Leo
Impressum -- Copyright © by the contributing authors. All material on this collaboration platform is the property of the contributing authors.