You are here: Logbuch

Fernwartung der FF-Knoten war gestört (2018-09-03)

Hallo Freifunk.

Der ein oder dem anderen ist in den letzten 1-2 Tagen vielleicht aufgefallen, dass auf unserer Karte bei den einzelnen Knoten keine IP Adressen mehr angezeigt wurden und die Freifunk-Knoten nicht mehr per Fernwartung erreichbar waren. Grund war (mein) menschliches Versagen gepaart mit einem Softwarefehler.

Aber von Vorne: Es begann alles mit der guten Absicht, eine Testinfrastruktur für unsere DHCP Server aufzubauen. In der Vergangenheit kam es manchmal vor, dass einzelne DHCP Server in einzelnen Domänen einfach einfroren. Dies blieb mitunter eine Zeitlang unentdeckt und führte zur Unerreichbarkeit großer Teile des Internets für die angeschlossenen Endgeräte. Vor zwei Tagen nahm ich dazu ein Tool namens dhtest in die Hand und installierte es auf allen Supernodes. (Rückschauend betrachtet eine dumme Idee.) Dieses Tool prüfte nun alle 5min alle DHCP-Server durch, indem es echte DHCP Abfragen machte. Als ich das Tool installierte, war ich etwas zu blauäugig und schaute mir nicht die genaue Funktionsweise an. Wie sich herausstellte, baut das Tool für den Test das Netzwerkinterface um. (Sagte ich bereits, dass es eine dumme Idee war, das auf dem Supernode laufen zu lassen?) Weiterhin stellte sich heraus, dass es danach beim Zurückbauen des Netzwerkinterfaces einen Fehler macht: das sog. Multicast-Flag wird nicht wieder hergestellt. Ohne dieses Flag stellte dann aber der Router Advertisement Server seinen Dienst ein und announciert die IPv6 Präfixe nicht mehr. Zusammengefasst: Um Legacy IPv4 zu stabilisieren, habe ich IPv6 kaputt gemacht.

Seit einer halben Stunde sollte alles wieder funktionieren. Endgeräte waren von der Geschichte nicht betroffen. (Diese machen im Gegensatz zu den FF-Knoten eine sog. Router Solicitation und warten nicht auf gelegentlich Multicast-Rundrufe.)

Gruß, Oliver

PS: Etwa 6% alle FF-Knoten sind zZ noch von einem Fehler in der Firmware betroffen und zeigen aus diesem Grund keine IP Adressen in der Karte an. Bei Kenntnis der Adressen sind die Knoten allerdings erreichbar. Dieser Fehler wird in einer der kommenden Firmware Updates behoben sein.

Update: Schlechter Datendurchsatz, Verbindungsabbrüche (2018-08-18)

Revocere! Ich widerrufe!

Ich hatte das Symptom und die Effekte richtig beschrieben, nur mit meiner Erklärung lag ich daneben. Ausgelöst wurde unser aktuelles Problem durch das (halbautomatische) Einspielen von Betriebssystemupdates - in diesem Fall ein neuer Kernel. Mein Trugschluss bestand nun darin, anzunehmen "Foreshadow → neuer Kernel → Performanceverlust". Der neue Kernel an sich war unschädlich. Das Einspielen löste aber den Neubau des Batman-Kernelmoduls aus. Auf einigen Supernodes wurden dabei einige Fehlerbereinigungen aus der Vergangenheit nicht berücksichtigt, sodass ein längst reparierter Fehler zurück kam. Der Fehler löste Netzwerkpaketstürme aus, die widerum die CPU überforderten und von mir als Foreshadow-bedingter Performanceverlust fehlinterpretiert wurde.

Danke an dieser Stelle an Leo, der in einer Nachtschicht das Problem analysierte und alles wieder gerade bog.

- Oliver

Leo schrieb:

Es stellt sich heraus, dass nicht die CPU-Patches ein Problem darstellen, sondern dass das Problem vom April/Mai mit den kaputten TransGlobal-Tabellen, die für Paketstürme sorgen, wieder aufgetreten ist.

Um das Problem zu erkennen, ist dieses Dashboard relativ gut geeignet:

https://stats.ffh.zone/d/WOa5qPZiz/tt-req-res?refresh=1m&orgId=1&from=now-7d&to=now

Es zeichnet die Anzahl der TT-Pakete auf. Die Bedeutung der unterschiedlichen Anfrage-/Antwortpakete ist dabei relativ irrelevant. Wichtig ist aber, dass wenn die Gesamtzahl (2. Graph von oben, grüne Kurve) der TT-Pakete über 2000 Pkt/s steigt, dass dann ein Problem vorliegt.

Paketraten von über 60000 Pkt/s wie wir sie in den letzten Tagen hatten, sind schlicht und ergreifend zu viel für die CPUs auf unseren Supernodes.

Um ein Gefühl für die Zahlen zu bekommen:
  • Mit 150-200 Mbit/s machen wir ca. 15.000 Pkt/s auf allen Supernodes. Wir haben auf den Supernodes bei diesen Werten so eine CPU-Auslastung von ~55%.
  • Rechnet man die Paketrate auf eine CPU-Auslastung von 100% hoch, dann ergibt sich eine Rate von ~27.000 Pkt/s.
  • Von den 15.000 Pkt/s sind ~2.000 Pkt/s normalerweise TT-Pakete.
  • Wenn jetz allerdings die TT-Pakete auf 40.000 Pkt/s ansteigen, dann wird die Luft eng auf den Supernodes. 53.000 Pkt/s sind einfach zu viel.

Wie das Problem gelöst wurde:
  • Ein Ausschalten aller VPN-Server für wenige Minuten führt dazu, dass sich die Tabellen auf nahezu allen Geräten leeren. Die kaputten Einträge, die sich überall im Mesh verteilt haben und anders schlecht zu eliminieren sind, verschwinden so nach ein paar Minuten da sie überall in ihren Timeout laufen und niemand die Information mehr an Andere weitergibt.

Viele Grüße, Leo

Schlechter Datendurchsatz, Verbindungsabbrüche zur Zeit (2018-08-17)

Sebastian schrieb uns:

ich muss die letzten Tage/Wochen wieder zunehmend feststellen, dass der Datendurchsatz an meinem Knoten doch relativ schlecht wieder zu sein scheint. Webseiten werden teilweise nur unvollständig geladen und der Speedtest, welcher nach der Netztrennung so bei 6/6 MBit/s lag ist jetzt schwankend bei 1-2 in beide Richtungen.

Ich antworte mal öffentlich auf der Mailingliste, da es vermutlich mehrere betrifft und interessiert.

Einige von Euch haben es vielleicht der Fachpresse (1) entnommen. Es wurden weitere Designschwachstellen bei (Intel) Prozessoren gefunden, die es erlauben - vereinfacht gesagt - dass ein Prozess in die Daten eines anderen Prozesses schauen kann. Das ist hinreichend blöd, wenn auf einem Prozessor mehrere virtuelle Maschinen verschiedener Kunden laufen. Um das Problem zu umgehen, wurden und werden bei unseren Providern gerade Patches eingespielt, die - vereinfacht gesagt - zentrale Beschleunigungsmechanismen (Caches, Hyperthreading,…) zugunsten der Sicherheit abschalten. Das geht mit einem massiven Performanceverlust einher. Genannter Artikel spricht von 15-50%. Praxiserfahrung der letzten Tage hat gezeigt, dass es bei unseren (CPU-hungrigen) Supernodes eher 50% sind.

Unsere Supernodes sind zu einem nicht unerheblichen Teil bei Feld-und-Wiesen-Hostern wie Hetzner, Contabo oder netcup angemietet. Die gebuchten Pakete sind - unseren finanziellen Rahmenbedingungen geschuldet - nicht die größten und leistungsstärksten Pakete. Wie man an (2) erkennen kann, ist in den letzten Tagen die CPU Auslastung durch obige Patches massiv nach oben gegangen. Exemplarisch an der Kurve von sn02 kann man in (3) sehr schön erkennen, dass die CPU gegen die 100% Decke geknallt ist und nicht weiter konnte. Folge sind dann in der Regel Netzwerk-Paketverluste bis hin zur Unbrauchbarkeit der Verbindung. Da, wo es technisch und finanziell möglich war, haben wir dann eine zweite CPU dazugebucht und die 100%-Decke zu einer 200%-Decke umgebaut.

Wir sammeln uns gerade und schauen, wie wir weiter mit den Problemen umgehen. In den nächsten Tagen kann es daher passieren, dass hier und da Supernodes umgestöpselt werden oder Routen ausgetauscht. Wenn Webseiten nicht vollständig laden, kann es sein, dass wir gerade im Hintergrund umbauen.

Gruß, Oliver

Serverarbeiten am Statistikserver zum Wochenende (2018-08-09)

Hallo FreifunkerInnen.

am Wochenende zieht der Statistikserver um. Betroffene Dienste sind die Webseite https://stats.ffh.zone/, sowie die Client-Statistiken der einzelnen Freifunkknoten auf unserer Karte unter https://hannover.freifunk.net/karte/. Diese Dienste werden kurzzeitig nicht erreichbar sein. Nach dem Umbau wird ggf. eine kleine Kontinuitätslücke in den Graphen zurückbleiben.

Gruß, Oliver

Nur noch Ausleitung in Deutschland (2018-07-30)

Hallo Freifunk Gemeinde.

Mit Ende des Monats kappen wir unsere Verbindung nach Frankreich und leiten ab jetzt nur noch in Deutschland aus. Die Ausleitung in Frankreich war seinerzeit nötig wegen der Störerhaftung in Deutschland.

Durch den Wegfall dieser problematischen Gesetzeslage sind wir in der Lage, den gesamten Verkehr von Freifunk Hannover komplett in Deutschland auszuleiten. Die Ausleitung in Deutschland ist jetzt keine wirkliche Neuigkeit - wir leiten schon eine ganze Weile auch hierzulande aus - ab jetzt allerdings nur noch und ausschließlich. Das beendet auch die immer mal wieder aufkommenden Diskussionen, warum dieser oder jener Dienst nicht mit Freifunk funktionert. So konnte man z.B. kein GMX Konto von einer französischer IP-Adresse aus eröffnen und Netzflix erlaubt es deutschen Kunden nicht, ihre Streaming-Dienste auch im Ausland zu nutzen.

Viel Spaß weiterhin mit einem deutschen Freifunk und lieben Gruß vom ganzen Team

Bernd

ältere Einträge
Impressum -- Copyright © by the contributing authors. All material on this collaboration platform is the property of the contributing authors.