nohopenofear
Goto Top

CNC Maschinen verlieren Netzwerkverbindung (kurioser Fehler)

Hallo Leidensgenossen,

auch auf die Gefahr hin dass das hier als Freitagsfrage abgestempelt wird hoffe ich auf brauchbaren Input für diesen - aus meiner bescheidenen Sicht - durchaus kuriosen Fehler.

Wir haben vor einiger Zeit die komplette Betreuung eines Kunden übernommen da der interne IT'ler das Unternehmen verlassen hat. Einige Tage danach hat dieser Fehler begonnen mich verrückt zu machen. Ich werde versuchen die Prolematik so genau wie möglich zu beschreiben, wenn euch weitere Infos interessieren, oder ich etwas vergessen haben sollte, bitte nachfragen.

Kunde setzt 2 CNC Maschinen mit sehr alten Steuerungen ein. Die Steuerung basiert auf 486'er Systemen, die Netzwerkkarten sind tatsächlich noch ISA Karten. Grundsätzlich greifen diese beiden Systeme nur auf das jeweils andere zu (Programm wird an Maschine 1 erstellt und falls notwendig auch auf Maschine 2 via Netzwerk übertragen). Ein Zugriff vom Netzwerk aus auf die beiden CNC Maschinen findet nur 1x pro Woche statt um die erstellten Programme via FTP zu sichern.

Der Aufbau sieht fol­gen­der­ma­ßen aus:
CNC Maschine 1 -> Cat5e Kabel -> 8 Port billig Switch
CNC Maschine 2 -> Cat5e Kabel -> 8 Port billig Switch
8 Port billig Switch -> über Dose/Verlegekabel Cat7(vermutlich) -> HP 2530 Switch
Direktes Verkabeln mit dem 2530'er leider nicht möglich, dazu müssten neue Kabel gezogen werden was der Kunde ablehnt.
Der 2530'er ist ein 48 Port Gerät das fast vollständig belegt ist, an keinem der anderen Geräte die dort dran hängen treten Fehler auf.

Die Geräte befindens ich in einem relativ leeren VLAN in dem sich nur ca. 20 andere Geräte befinden, hauptsächlich Switche und andere Netzwerkgeräte.

Dieser Aufbau hat über Jahre hinweg problemlos funktioniert. Seit einiger Zeit ist es nun so dass beide CNC Maschine (erst eine, ca. eine Minute später die andere) die Netzwekverbindung verlieren.
Das äußert sich so dass zwar noch ein Link zur Maschine besteht aber keinerlei Daten mehr übertragen werden, auch ein Ping ist nicht mehr möglich. Weder zwischen den Maschinen noch vom restlichen Netzwerk aus zu den Maschinen. Werden die Maschinen neu gestartet funktioniert alles wieder für einige Minuten, danch der gleiche Fehler wieder.

Interessant daran ist dass sobald die Verbindung des billig Switches zum Netzwerk getrennt wird (also nur die beiden Maschinen alleine an diesem Switch, ohne Vebindung zum Rest der Welt) das Problem nicht auftritt. Hängt man z.B. ein Notebook mit dazu um dort die Sicherung manuell auszuführen tritt das Problem ebenfalls nicht auf. Sobald dann das Patchkabel in Richtung Firmen LAN eingesteckt wird dauert es ca. 1-3 Minuten und beide Geräte sind nicht mehr erreichbar. Auch nicht wenn man alle Kabel trennt und sich direkt mit der Maschine verbindet (Crossover, manuelle Einstellungen Link Speed getestet).

Die Maschinen haben statische IPs und laufen unter einen scheinbar stark umgebauten DOS System. Einzelheiten zum OS kann ich leider nicht wirklich nennen da sich der Hersteller hier ziemlich bedeckt hält. Interessant ist aber dass die es scheinbar hinbekommen haben sowohl ein Dual-Screen Setup als auch Touchscreen Support in das DOS System zu bekommen. Die Aussage dass es DOS (welches auch immer) ist kommt vom Hersteller, gebe das so weiter.

Was wir bisher erfoglos versucht haben:
Austausch billig Switch gegen teureren billig Switch
Austausch billig Switch gegen managebaren Switch, Ports manuell auf 10/100 Mbit/s halb/voll gestellt
Austausch der Netzwerkkarten an den Maschinen und generelle Fehlersuche durch den Support des Herstellers
Austausch aller irgendwie beteiligten Kabel
Sniffen via Wireshark während der Fehler auftritt -> es ist absolut kein einziges Paket von den Maschinen zu sehen
Ausschluss von IP Adress Konflikten
Notebook direkt mit den Maschinen verbunden nachdem der Fehler auftritt -> kein einziges Paket sichtbar

Ich bin hier mittlerweile ziemlich ratlos und weiß nicht was man noch testen bzw. wo man noch nach dem Fehler suchen sollte.

Hoffe von euch hat jemand eine zündende Idee, ansonsten möge man es als Freitags Thread behandeln face-wink

Dank & Grüße,
Andre

Content-Key: 344102

Url: https://administrator.de/contentid/344102

Ausgedruckt am: 19.03.2024 um 03:03 Uhr

Mitglied: Der-Phil
Der-Phil 21.07.2017 um 11:34:47 Uhr
Goto Top
Hallo!

Das Setup ist eine ziemliche Zeitbombe, aber das ist hoffentlich allen beteiligten klar.

Ich würde die beiden Rechner auf Layer 3 zum Rest trennen. Dann hast Du die Unsicherheiten möglichst gut ausgeschlossen. Am besten ein kleiner Mikrotik-Router oder ähnlich statt dem Billigswitch. Dann weißt Du zu 100%, dass nichts zu den Geräten geht an Datenverbindung und Du hast die potentiell angreifbaren Maschinen maximal isoliert.

Grüße
Phil
Mitglied: NoHopeNoFear
NoHopeNoFear 21.07.2017 aktualisiert um 11:40:39 Uhr
Goto Top
Hi,

ja - dass das sicherheitstechnisch katastrophal ist wissen alle beteiligten.
Die Layer3 Isolierung war von uns auch angedacht, dazu ist allerdings wieder ein vor Ort Termin mit dem Hersteller nötig um die IP Adressen der Geräte zu ändern. Die Kosten will der Kunde gerne einsparen... sollten wir wirklich keine andere Lösung finden wird es wohl darauf hinauslaufen, evtl. dann via NAT anstatt die Adressen anzupassen.

Grundsätzlich würde ich allerdings gerne verstehen warum der Fehler überhaupt auftritt.
Mitglied: falscher-sperrstatus
falscher-sperrstatus 21.07.2017 um 11:49:11 Uhr
Goto Top
Hallo Andre,

ist ein Ausfall der Komponenten (Hitze usw) möglich? Logs checken...

Ansonsten Billigswitch austauschen und mal mitsniffen.

VG
Mitglied: wiesi200
wiesi200 21.07.2017 um 11:56:04 Uhr
Goto Top
Hallo,

rein vom Gedanken her. Die so alte CNC Maschinen haben selten einen eigenen Netzwerkanschluss.
Vielleicht hängt da ein RS232 Konverter dran der dir in die Quere schießt.
Mitglied: n.o.b.o.d.y
n.o.b.o.d.y 21.07.2017 um 12:35:58 Uhr
Goto Top
Moin,

könnt ihr die Geräte mal in eine eigenes VLAN ohne andere Mitspieler packen? Könnte mir vorstellen, dass von dort Pakete kommen, die die alten Kisten nicht verstehen und ins Nirvana schicken.

Anonsten ist aber natürlich der Vorschlag von Phil auf jeden Fall der eigentlich richtige Ansatz.
Mitglied: chgorges
chgorges 21.07.2017 um 13:09:15 Uhr
Goto Top
Subjektiv: Ich lese nur raus, dass es viele Probleme gibt, der Kunde aber überhaupt keine Lust hat, für irgendetwas zu zahlen.

Heißt für mich: Problem kann nicht so wichtig sein und ihr fahrt langfristig besser damit, wenn ihr die Betreuung einstellt.

Ansonsten hast du dir die Antwort quasi schon gegeben: Häng die Maschinen in ein eigenes VLAN, ACLs drauf und gut ist.
Irgendetwas im Hauptnetz wird wahrscheinlich derart stormen, dass die schwächsten Glieder, in deinem Fall die NICs der Maschinen, den Dienst quittieren.
Mitglied: chiefteddy
chiefteddy 21.07.2017 um 13:27:53 Uhr
Goto Top
Hallo,

nichts gegen die Router von MikroTik, aber mit industrietauglichen Technik hat das auch nichts zu tun. Von den Einsatztemperaturen über Staubschutz, EMV, mechanischer Stabilität, IP-Schutzgrad bis zu Ausfallsicherheit durch redundante Stromversorgung erfüllt ein Office-Router - wie die MikroTik-Reihe - keine der Industrieanforderungen. In diesem Scenario sind Office-Router auch nur "Billigheimer"

Zum Testen mag das ja mal gehen; für den Produktiven Einsatz in einer Produktionshalle ein No-Go.

Industriel Ethernet ist eben etwas mehr als Office-IT!

Schau mal hier:

https://www.phoenixcontact.com/online/portal/de/pxc/product_list_pages/! ...


Jürgen
Mitglied: tikayevent
tikayevent 21.07.2017 um 13:54:20 Uhr
Goto Top
Austausch billig Switch gegen managebaren Switch, Ports manuell auf 10/100 Mbit/s halb/voll gestellt

Dann aber bitte auf beiden Seiten, ansonsten hat man ein Duplex-Mismatch und noch größere Probleme. Am besten das Advertising manipulieren, wenn der Switch es kann, dann funktioniert die Auto Negotiation weiter, aber eben nur auf das Gewünschte eingeschränkt.

Wenn das Kabel vom Miniswitch zum HP-Switch 8polig belegt ist und nur die beiden Geräte am Miniswitch hängen, dann einfach mal Cable-Sharing-Adapter einsetzen, dann hängen die Geräte direkt am HP.

Gab es in letzter Zeit irgendwelche Wartungsarbeiten im Unternehmen, bei dem die Maschinen abgeschaltet wurden/stromlos waren oder gab es eine Spannungsspitze?
Mitglied: NoHopeNoFear
NoHopeNoFear 21.07.2017 aktualisiert um 14:17:52 Uhr
Goto Top
@wiesi200
Wie oben beschrieben, die Kisten haben einen vollwertigen 486'er PC intern verbaut mit eigener NIC. Keine Konverter. Ich stand daneben als die Karten getauscht wurden.

@n.o.b.o.d.y + chgorges
Haben wir ja im Prinzip gemacht, also die Maschinen auf einem eigenen Switch isoliert - funktioniert dann ohne Probleme. Was passiert wenn ein Routing zum Hauptnetz eingerichtet wird wissen wir noch nicht. Ich habe keine nennenswerten Broadcast Mengen Sniffen können wenn das Hauptnetz mit angeschlossen war.

@tikayevent
Habe leider keinen Zugriff auf die Maschine selbst. Laut Support Techniker gibts da auch nix einzustellen, wage ich zu bezweifeln - kann es aber nicht beeinflussen.
Das mit dem Kabelsharing Adapter wäre eine Idee. Da das Problem aber bei 3 verschiedenen mini Switchen schon aufgetreten ist bezweifle ich dass sich dadurch etwas ändern würde. Kann ich aber beim nächsten Termin dort mal testen. Ist immer etwas schwierig daran etwas zu machen da alle Fehlversuche mit Reboots der Maschinen und Arbeitsausfall verbunden sind.

Mir sind weder Wartungsarbeiten noch Spannungsspitzen oder sonstige Probleme bekannt. Ist auch das einzige derartige Problem dass wir dort aktuell haben.

Aus meiner Sicht scheint das Problem an den Maschinen bzw. der Software selbst zu liegen. Irgendwas das aus dem Hauptnetz kommt scheint den Geräten nicht zu gefallen. Warum die Teile dann den Kopf komplett in den Sand stecken verstehe ich allerdings überhaupt nicht.
Mitglied: brammer
brammer 21.07.2017 um 14:46:24 Uhr
Goto Top
Hallo,

Wie oben beschrieben, die Kisten haben einen vollwertigen 486'er PC intern verbaut mit eigener NIC. Keine Konverter. Ich stand daneben als die > Karten getauscht wurden.

Hast du dir den Rechner mal genau ansehen können?
Ist das ein Industrie Rechner oder ein umfunktionierter Desktop Rechner?

Evtl ist der Rechner einfach dabei an Altersschwäche zu sterben....
Oder ist die neu eingebaute NIC einfach DoA?

Wurde, vielleicht auch unabhängig von den CNC Maschinen, irgendwelche Umbauarbeiten beim Kunden gemacht?
Strom Kabel gezogen? Motoren oder Pumpen neu eingebaut?
Nicht das du da durch parallel zum Netzwerkkabel Stromführende Kabel hast, die ein Magnetfeld erzeugen und die Netzwerkkommunikation stören?

brammer
Mitglied: NoHopeNoFear
NoHopeNoFear 21.07.2017 um 14:53:33 Uhr
Goto Top
Schwer zu definieren was das nun für ein Rechner sein soll. Im Prinzip sind die Einzelteile des PCs in der Maschine direkt verbaut, also ohne richtiges Gehäuse. Das System hat eine Art Wartungsklappe, dahinter versteckt sich die Steuerungstechnik und der PC. So wirklich geschützt kommt mir das alles nicht vor. Die Karten können nicht DoA gewesen sein, war ja vorher und hinterher das gleiche Problem bei beiden Maschinen. Umgebaut wurde nichts.
Mitglied: brammer
brammer 21.07.2017 um 14:59:32 Uhr
Goto Top
Hallo,

Hänge doch mal einen Wireshark zwischen die NIC und den ersten Switch und zeichne alles auf....

brammer
Mitglied: chgorges
chgorges 21.07.2017 um 15:00:59 Uhr
Goto Top
Zitat von @NoHopeNoFear:
Ich habe keine nennenswerten Broadcast Mengen Sniffen können wenn das Hauptnetz mit angeschlossen war.

Auch nicht in dem Moment, in welchem die Maschinen nicht mehr erreichbar waren?

Hast du Nagios laufen, um den Uplink-Port des 2530er zum Bllig-Switch zu überwachen? Spanning-Tree und Loopback Detection auf dem 2530er aktiviert?
Mitglied: NoHopeNoFear
NoHopeNoFear 21.07.2017 aktualisiert um 15:06:07 Uhr
Goto Top
@brammer
Haben wir bereits gemacht, allerdings dabei nichts auffälliges finden können. Die Geräte reagieren einfach nicht mehr.
Evtl. sind meine Wireshark Kenntnisse dafür aber auch nicht wirklich ausreichend. Irgendwelche Tips wonach man gezielt suchen könnte?

@chgorges
Nein, da ist Broadcast mäßig generell kaum was los. Wie gesagt, in dem VLAN gibt es nicht viele Geräte.
Leider kein Nagios derzeit, wir arbeiten gerade an der Einführung einer Management / Monitoring Lösung. STP / Loopback Detection ist soweit ich weiß auf dem Switch deaktiviert, kann ich mir aber nochmal anschauen. Generell wird dort (noch) kein STP eingesetzt.
Mitglied: chgorges
chgorges 21.07.2017 aktualisiert um 15:09:52 Uhr
Goto Top
Grundsätzlich nur danach, ob zum Zeitpunkt des Ausfalls irgendein Gerät massiv viele Pakete verschickt/stormt. Das erkennst du an sehr vielen Einträgen pro Sekunde. Die Farbe spielt dabei allerdings keine Rolle.

Ich hatte mal den Fall, dass eine Klimaanlage eine DHCP-Fehlfunktion hatte und das Netz im Abstand von ca. 5 Minuten mit Broadcasts gestormt hatte.
Wäre nie aufgefallen, wenn wir keine Analog-Telefonieboxen im Einsatz gehabt hätten, die mit 10MBit/s angeschlossen sind und von den Storms komplett lahmgelegt wurden (RX-Portauslastung jeweils 100% = Verbindung unterbrochen).

100MBit/s oder 1GBit/s Geräte zeigten sich davon unbeeindruckt.

Diese DHCP-Einträge z.B. sind im Wireshark blau.
Mitglied: NoHopeNoFear
NoHopeNoFear 21.07.2017 um 15:12:31 Uhr
Goto Top
OK, heftigen Broadcast Traffic konnten wir bereits ausschließen. Der Logik nach (nehme ich mal an) müsste ja auch in so einem Fall die Funktion der Maschinen bzw. die Kommunikation zwischen den Maschinen wieder laufen sobald sie vom Hauptnetz getrennt werden. Das ist hier nicht der Fall, erst nach einem Reboot läuft es wieder.
Mitglied: chiefteddy
chiefteddy 21.07.2017 um 16:49:12 Uhr
Goto Top
Hallo,

nur mal so ein Gedankengang:

In den alten Ethernet-Standards war das Frame mit einer max. Größe von 1518 Byte definiert. Mit Einführung von VLAN und QoS wurde die Frame-Größe auf 1522 Byte erhöht.

"Früher", als der RAM noch teuer war, hat man mit der Speicherausstattung der Netzwerkgeräte gegeizt, dh. wenn der Empfangspuffer auf der alten ISA-Netzwerkkarte nur n x 1518 Byte groß ist und, warum auch immer, im Broadcast-Segment getaggte Ethernet-Frames "herumschwirren", könnte es zu einem Pufferüberlauf in der alten NIC kommen. Das könnte wiederum zu einem "Totalausfall" des Protokoll-Stacks führen.

Das entspricht Deiner Fehlerbeschreibung.

Meine These wird auch dadurch gestützt, dass bei alleiniger Verbindung beider Maschinen über einen Switch ohne Verbindung zum übergeordneten Switch der Fehler ja nicht auftritt.


Jürgen
Mitglied: NoHopeNoFear
NoHopeNoFear 21.07.2017 um 19:21:29 Uhr
Goto Top
Ineteressante Theorie. Irgend eine Idee wie man das testen könnte?

Falls das wirklich das Problem sein sollte verstehe ich allerdings immer noch nicht warum der Fehler erst jetzt auftritt und nicht seit Jahren schon.
Die letzte nennenswerte Änderrung am Netzwerk ist auch schon eine ganze Weile her.
Mitglied: chiefteddy
chiefteddy 21.07.2017 um 22:18:28 Uhr
Goto Top
Hallo,

in der betroffenen Broadcastdomäne (VLAN, Subnetz) den Datenverkehr analysieren, ob Frames mit Tagging-Informationen auftauchen.

Ursache muß ja nicht im betroffenem Netzwerksegment liegen. Es braucht im Netzwerk ja nur irgendein Switch falsch konfiguriert sein.

Jürgen
Mitglied: umount
umount 21.07.2017 um 22:25:48 Uhr
Goto Top
Abend,

Schauen was für Nics verbaut sind, und Google nach älteren Handbüchern befragen.
Mitglied: umount
umount 21.07.2017 um 22:31:35 Uhr
Goto Top
Beim Eingesetzten OS könnte sich es um Windows for Pen Computing handeln. Das ist ein Windows was speziell für Touchscreens entwickelt wurde.


en.m.wikipedia.org/wiki/Windows_for_Pen_Computing
Mitglied: Vision2015
Vision2015 22.07.2017 aktualisiert um 11:16:18 Uhr
Goto Top
moin..

Die Maschinen haben statische IPs und laufen unter einen scheinbar stark umgebauten DOS System. Einzelheiten zum OS kann ich leider nicht wirklich nennen da sich der Hersteller hier ziemlich bedeckt hält. Interessant ist aber dass die es scheinbar hinbekommen haben sowohl ein Dual-Screen Setup als auch Touchscreen Support in das DOS System zu bekommen. Die Aussage dass es DOS (welches auch immer) ist kommt vom Hersteller, gebe das so weiter.

also MS Dos über RS-232 an einen oder 2 Touchscreen für eine CNC-Steuerung war früher Normal!
in der regel wurde MS Dos genommen, später auch mal PC Dos oder DR Dos...

Was wir bisher erfoglos versucht haben:
Austausch billig Switch gegen teureren billig Switch
Austausch billig Switch gegen managebaren Switch, Ports manuell auf 10/100 Mbit/s halb/voll gestellt
was selten funktioniert...
besorg dir mal einen alten 100 MBit HUB... da kommen die beiden CNC Dosen dran, der HUB wird dann mit einem kleinem Switsch verbunden... und der mit dem Router/ Switch in euer Netz!
wenn die Dos CNC kisten NE2000 Nic´s haben- wissen die nix von VLAN´s etc.. was sie aber nicht mögen sind Moderne Switche, Broadcast-Sturm etc.. was ich auch schon mal hatte, waren Potentialprobleme! Während die CNC Fräse in der Werkhalle mit Drehstrom vor sich hindümpelte und das eine oder ander Ampere verbraten hat, wurde in der Konstruktion gesessen, die natürlich im nebenhaus war... 2 Häuser 2 unterschiedliche Erd Potentiale und 4 Netzwerk kabel... das ging jahrelang gut- bis auf einmal nix mehr ging!
nur mal so als Tip...

Frank