DataOps oder: Wie ich lernte, DevOps zu lieben

Dataops
© Asha Sreenivas - stock.adobe.com
Bewerten
7 Bewertungen,
Durchschnitt 4,6

20 Tage: So lange dauerte es durchschnittlich in unserem letzten Data Science Projekt bis sich völlig neue Muster in den Rohdaten ergaben. Typischerweise entwickelt man ja als Data Scientist ein mathematisches Modell auf Basis von historischen Daten, um damit dann verwertbare Aussagen über zukünftige Datensätze treffen zu können. Wenn sich allerdings alle paar Wochen die Datengrundlage ändert, ist das eine gewisse Herausforderung: Ein naiv entwickeltes, einmal trainiertes Modell hätte innerhalb von recht kurzer Zeit seine Aussagekraft und Relevanz weitgehend verloren.

Konkret ging es in unserem Beispiel um eine automatisierte Prüfung von Qualitätsdaten vom Shopfloor, aber für Data Science in der Produktion ist das tatsächlich eine alltägliche Herausforderung. Ob nun in der Lackierung, Montage oder beim Spritzguss – überall muss man mit einer starken Veränderung von Mustern oder Einflussfaktoren im Laufe der Zeit rechnen.

Informationsgrundlage schaffen: Gemeinsam und flexibel

Zunächst müssen wir für den jeweiligen Use Case die konkreten Ursachen verstehen – also Prozessumstellungen, Regelanpassungen, die Änderungen von Bauvarianten, Werkzeugen oder ähnliches. Dies gelingt in der Regel nur über eine enge Zusammenarbeit mit dem jeweiligen Fachbereich, der das nötige Domänenwissen hat. Ein agiles Vorgehen im Entwicklungsprozess mit der damit verbundenen Flexibilität und dem Einbezug der Experten auf Kundenseite ist daher sinnvoll.

Zusätzlich bedeutet der stete Wandel auf dem Shopfloor für mich als Data Scientist, dass die Arbeit mit einem einmaligen Erstellen eines Vorhersage- oder Klassifikationsmodells nicht getan ist. Wenn für die produktive Bereitstellung danach ohnehin noch Monate ins Land gehen, beispielsweise wegen der Abhängigkeit von dem starren Release-Zyklus einer größeren Anwendung, ist das Modell möglichweise längst veraltet und seine Aussagekraft dahin.

Ein Muss: DevOps für Big Data

Die Parallelen zur allgemeinen Software-Entwicklung liegen auf der Hand. Es liegt also nahe, bewährte Ansätze wie die agile Entwicklung und insbesondere DevOps auch für Data Science Projekte anzupassen und einzusetzen: Die entsprechende Methode nennt sich passenderweise DataOps. Ziel ist, nötige Prozesse wie Build, Test und Deployment soweit wie möglich zu automatisieren. Über Continuous Integration und Continuous Delivery lassen sich damit nicht zuletzt sehr kurze Release-Zykluszeiten erreichen.

Für den beteiligten Data Engineer oder Data Scientist hat dies einen willkommenen Nebeneffekt: Er ist für die Produktivsetzung seiner Arbeit nicht auf ein IT- oder Operations-Team angewiesen und muss sich auch nicht mit den technischen Details von Containerisierung oder ähnlichem auseinandersetzen. Die Nutzung einer entsprechenden DevOps Tool Chain, gepaart mit standardisierten Schnittstellen und Metriken, macht es möglich.

Vertrauen ist gut, Kontrolle ist besser

Mehr noch als in der Software-Entwicklung stehen bei Data Science Projekten die Daten im Mittelpunkt. Auch hier, gerade bei Live- bzw. Echtzeitdaten, können abrupte Änderungen auftreten, auf die man zeitnah reagieren sollte. Eine DataOps-Architektur sieht deswegen ein End-to-End Monitoring der gesamten Data Pipeline vor. Datendurchsatz, -qualität oder -vollständigkeit sind wichtige Kriterien bzw. Metriken, die sich analog zur Statistischen Prozesskontrolle (SPC) auf dem Shopfloor überwachen lassen. Ein Alerting System garantiert, dass man schnell Problemursachen identifizieren bzw. sogar präventiv auf drohende Störfälle reagieren kann.

Im Zeitalter von DSGVO und sonstiger Datenschutzbestimmungen sind auch die Themen Compliance und Security für Big Data zunehmend wichtig. Durch die Nutzung geeigneter Infrastrukturen und Daten-Management-Tools lässt sich der Spagat zwischen den gesetzlichen Vorschriften und dem Innovationsdruck besser meistern.

Die Vorteile von DataOps

Für den Kunden ergibt sich durch die Nutzung von DataOps der Mehrwert, dass Data Science Projekte kostengünstig auf dem aktuellsten Stand gehalten werden können, dass man agil und schnell auf neue fachliche Anforderungen reagieren kann und sich letztlich dadurch die Modell- und Vorhersagequalität wesentlich verbessert. Das integrierte End-to-End-Monitoring und die Wahl geeigneter Infrastruktur gewährleisten höhere Verlässlichkeit und Verfügbarkeit der eingesetzten Anwendungen.

Nicht zuletzt lassen sich mit einer DataOps Architektur ohne großen Mehraufwand potentiell nützliche Zusatzfeatures für den Fachbereich bzw. die Endanwender bieten: beispielsweise ein Web Frontend, über das die Fachexperten mehrere Modelle auswählen, ihren Output in Echtzeit und historisch miteinander vergleichen können und sogar ihren Favoriten mit einem Mausklick selbst auf dem Produktivsystem bereitstellen bzw. deployen können.

Fazit – Zeit sparen mit DataOps

2 Minuten: So schnell (und einfach) können wir Dank DataOps ein produktiv eingesetztes Modell on-the-fly durch ein neues austauschen.Und ich als Data Scientist freue mich: Ich sehe viel schneller als früher, dass meine Arbeit tatsächlich genutzt und gewinnbringend eingesetzt wird und profitiere von der engen Zusammenarbeit mit dem Fachbereich. Der Fachbereich wiederum freut sich, weil er stärker eingebunden ist, auf die Umsetzung seiner Anforderungen nicht mehr ein halbes Jahr warten muss und die Aussagekraft der Vorhersagemodelle entsprechend hoch ist. Und das Unternehmen freut sich ebenfalls, spätestens wenn es die Betriebskosten und den RoI sieht.

Keine Updates
mehr verpassen:
1
© Asha Sreenivas - stock.adobe.com

Zurück