Industrie 4.0: Verarbeitung von Sensordaten mit Big Data Tools

Für die Optimierung von Wartungs- oder Qualitätsprozessen in der Produktion ist die ganzheitliche Beschreibung von Maschinenzuständen über Sensordaten eine der elementaren Voraussetzungen. Die zugrunde liegende IT-Architektur muss hierfür nicht nur ausreichend Flexibilität hinsichtlich der Anbindung von verschiedenen Maschinensteuerungen bieten, sondern auch in der Lage sein, die empfangenen Daten einfach und schnell zu analysieren, um so Dienstleistungen für die Prozessoptimierung bereitstellen zu können.

Genau an diesem Ziel, der Bereitstellung internetbasierter Dienstleistungen im Umfeld von cyberphysischen Produktionssystemen, forschen wir zusammen mit anderen Partnern im Verbundprojekt OpenServ4P, das durch das Bundesministerium für Wirtschaft und Energie gefördert wird. Ein Schwerpunkt dieser Services stellt dabei die Prozessoptimierung im Sinne der vorausschauenden Instandhaltung dar.

Hierzu wurde im Rahmen der HMI 2017 die erste prototypische Implementierung eines solchen Service präsentiert, der die vorausschauende Instandhaltung eines automatisierten Prüfstandes realisiert. Für die gewählte IT-Architektur waren die Big Data Tools Apache Kafka und Apache Spark dabei von besonderer Bedeutung.

Apache Kafka

Apache Kafka erfüllt hier als schnelles und skalierbares Messaging System die Aufgabe, die Events aus verschiedenen Quellen (Producer) zu empfangen und weiterzuleiten. Dabei kann Kafka als zentrale Stelle für die Verarbeitung aller Streaming-Daten dienen, ohne dass Kafka wissen muss, woher die Daten kommen oder wer diese Daten weiterverarbeitet (Consumer). Man kann Kafka auch als Queue System bezeichnen.

Kafka ist in sogenannte Topics unterteilt. Dabei ist ein Topic einfach ein LogFile, welches im Kafka Broker liegt. Zu einem normalen LogFile, welches als einzelnes File auf einem einzelnen Server liegt, gibt es allerdings einen großen Unterschied. Denn auf die Daten aus den Topics kann von überall zugegriffen werden, wo Zugriff auf Kafka besteht, und die Daten können von verschiedenen Stellen gleichzeitig in das Topic geschrieben werden.

Mit Kafka Connect bietet Kafka sogenannte Konnektoren, die es ermöglichen, Daten zwischen Kafka und den unterschiedlichsten Systemen direkt zu bewegen. Dabei unterscheidet man zwischen Source Connectors, mit denen man Daten z.B. aus einer relationalen Datenbank nach Kafka importiert, und Sink Connectors, mit denen man Daten z.B. aus einem Kafka Topic in ein HDFS File exportiert

Apache Spark

Apache Spark bringt standardmäßig alle Tools mit, die für eine professionelle Datenanalyse – sprich für die Datensammlung, die Datenverarbeitung und die Datenübertragung – gebraucht werden. Für die Datensammlung bietet Spark Streaming die Möglichkeit, Daten einfach und schnell aus verschiedensten Datenquellen, wie Kafka, Flume, HDFS/S3, Twitter oder TCP Socket-Verbindungen, über einen Daten-Stream zu akquirieren. In unserem Fall war es Apache Kafka. Die Daten konnten somit in dem Moment verarbeitet werden, in dem sie erzeugt wurden.

Mit Spark, Spark SQL und Spark Machine Learning ließ sich Datenverarbeitung mit ihren typischen Herausforderungen sehr effizient umsetzen. Im Rahmen der prototypischen Implementierung wurden im Streaming verschiedenste Kennzahlen – etwa Abweichungen zu Musterverläufen auf Basis von 20.000 Datenpunkten – in Echtzeit berechnet und dem Frontend zur Verfügung gestellt. Auch die Erstellung von Prädiktionsmodellen ließ sich mit Spark SQL und Spark Machine Learning weitestgehend automatisieren.

Hierfür bietet Spark mit Pipelines die Möglichkeit, den Prozess der Datenbereinigung, Datentransformation und des Trainierens von verschiedensten Prädiktionsmodellen einmalig zu definieren und dann automatisiert auf sich ändernde Datenbestände anzuwenden. Die Modelle konnten dann im HDFS gespeichert und für die Datenanalyse im Daten-Stream wieder geladen werden. So war es möglich, Aussagen über die restliche Lebenszeit von Komponenten des Prüfstands direkt im Daten-Stream zu treffen.

Dieser Blogbeitrag entstand in Zusammenarbeit mit Marc Buchholz.

Hinterlassen Sie einen Kommentar

Nach oben