Predictive Analytics Anwendungen mit R entwickeln

Bewerten
3 Bewertungen,
Durchschnitt 4,3

Der Begriff Predictive Analytics steht für Zukunftsprognosen. Der Blick in die Zukunft ist ein Kernthema für jedes Geschäft. Durch die Möglichkeit, immer mehr Daten speichern zu können, wird dieser Blick immer genauer. Ein wesentlicher Bestandteil von Software-Lösungen für Predictive Analytics sind die Methoden und Werkzeuge des Data Minings.

Die Aufgabe dieser Methoden ist es, Muster in Datenbeständen zu erkennen. Mit den erkannten Mustern lassen sich häufige Fragestellungen, zum Beispiel der Automobilindustrie, beantworten:

  • Hat die Raumtemperatur Einfluss auf meinen Lack?
  • Wie kann ich regelmäßige, teure Rückrufaktionen in Zukunft vermeiden?

Wer sich eingehend mit den Themen Big Data, Hadoop und Predictive Analytics beschäftigt, wird eher früher als später mit der Programmiersprache Rkonfrontiert sein. R ist eine Programmiersprache zur statistischen Datenanalyse. Diese Sprache wurde 1991 in Neuseeland auf der Grundlage der Programmiersprache S entwickelt. Das Basispaket für R kann man auf der Internetseite von CRAN herunterladen.

Das Besondere an diesem Werkzeug im Vergleich zu ähnlichen Programmen wie SAS, Matlab und SPSS ist, dass R eine freie Programmiersprache ist. Das bedeutet, sie steht für jedermann kostenfrei zur Verfügung – unabhängig davon, ob man es für den Privatgebrauch oder für geschäftliche Zwecke verwenden möchte. Weiterhin läuft es auf fast allen standardisierten Plattformen.

So wächst die Bibliothek stetig. Sie besteht aus Paketen, die meist nicht nur Funktionen beinhalten, sondern auch Datensätze mit Beispieldaten, wie im Standardpaket base. Dies ermöglicht eine schnelle und einfache Einarbeitung in die Thematik. Findet man für ein bestimmtes Problem keine passende Funktion, kann man sich auch eigene Funktionen schreiben. Bei der Erstellung von eigenen Funktionen steht einem die sehr aktive und immer größer werdende Gemeinschaft mit Rat und Tat zur Seite (R-help und R-devel). Wenn man möchte, kann man seine fertigen Funktionen der Gemeinschaft zur Verfügung stellen. Ein Risiko von Open Source ist allerdings, dass es keine Garantie für die Richtigkeit der bestehenden Funktionen gibt. Eine kritische Analyse der verwendeten Funktion und deren Ergebnisse ist damit unabdingbar.

R kann verschiedene Datenquelle anbinden: Excel- und Textdateien, ODBC Interface, Database Interface (Oracle, MySQL), SPSS, SAS, Stata und Systat. Für Berechnungen stehen der R Bibliothek verschiedene Pakete zur Verfügung, unter anderem zu den Grundlagen Mathematik, statistische Modelle, statistische Tests, Data Mining. R ermöglicht damit im Gegensatz zu den meisten BI-Tools anspruchsvollere Analysen und Zukunftsprognosen. Die Darstellung der Ergebnisse ist ebenfalls in R möglich, jedoch weitaus weniger ansprechend als die Auswertung mit führenden BI-Tools. Kombiniert man R zum Beispiel mit QlikView, können die Vorzüge des Programms voll ausgeschöpft werden.

Zurück