Projekt

Wie ein Machine Learning Data-Produkt jährlich über 7.000 Personenstunden in der Produktion einspart

Branche: Entwicklung & produzierendes Gewerbe
Service: Business Intelligence

„Deutsche Unternehmen nutzen ihre Daten kaum“

titelte die Bitkom in einer großangelegten Studie aus 2024. Nur 6 % von 603 befragten Unternehmen schöpfen ihr Datenpotenzial aus [1]. Von den Unternehmen, die bisher keine KI-Technologien nutzen, geben 71 % fehlendes Wissen als Ursache an [2].

Parallel dazu speichern produzierende Unternehmen längst täglich Unmengen an Daten durch Sensoren, Prozesse und Systeme. Das Institut der deutschen Wirtschaft berichtet von einer Vervierfachung der weltweiten Datenmenge zwischen 2017 und 2022 und rechnet mit einer elf Mal größeren Menge bis 2027 [3]. Dieses Potenzial nicht zu nutzen, bedeutet schon heute einen Wettbewerbsnachteil zu erleiden.
Nur 28 % der deutschen KMUs und 48 % aller deutschen Großunternehmen ab 250 Beschäftigten nutzten im Jahr 2024 KI-Technologie. Wir möchten in diesem Artikel am Beispiel eines produzierenden Unternehmens aus dem DACH-Raum vorstellen, wie die Nutzung von KI gelingen kann.

Wir haben diesem Unternehmen dabei geholfen, über 7.000 jährliche Arbeitsstunden durch den Einsatz von KI/Machine-Learning-Methoden einzusparen und damit das vorhandene Datenpotenzial in der Produktion und der Beschaffung auszuschöpfen. Dabei haben wir kein riesiges Projektsetup aufgesetzt, sondern konnten das Ergebnis mit kleinen, agilen Sprints innerhalb weniger Monate bei einem Einsatz von weniger als einer Vollzeitstelle erreichen.

[1]: Deutsche Unternehmen nutzen ihre Daten kaum | Presseinformation | Bitkom e. V.
[2]: Jedes fünfte Unternehmen nutzt künstliche Intelligenz – Statistisches Bundesamt
[3]: Datenmenge wächst rasant -iwd.de

Die Herausforderung

Das Ziel in der Supply Chain und Fertigung des Unternehmens war klar vorgegeben: Die durchschnittliche Bearbeitungszeit der Produktionsabweichungen sollte innerhalb eines Jahres um 50 % sinken, da diese ein Haupttreiber für die überbordenden Kosten sind. Die zentrale Frage aus Datensicht war schnell definiert: Wie können historische Daten so genutzt werden, dass aktuelle Abweichungen schneller und effizienter gelöst werden?

Unser Lösungsansatz

Wir starteten mit einer gründlichen Evaluierung verschiedener Methoden zur Ähnlichkeitsmessung – von regelbasierten Scorings bis zu Machine-Learning-Ansätzen wie Regression und Clustering.
Die gewählte Lösung: Applikationen, die mithilfe von Regressionsanalyse und Text-Mining-Methoden historische Abweichungsdaten durchsuchen. Sie zeigen den Mitarbeitern automatisch die ähnlichsten vergangenen Fälle zur aktuellen Abweichung.

Die technische Umsetzung

Dabei nutzen wir verschiedene Eigenschaften (Features) der Abweichungen als Variablen für das Machine-Learning-Modell. Dazu gehören: Art der Abweichung, zeitliche Komponenten sowie detaillierte Informationen aus Bauzeichnungen, Stücklisten, Materialien und Durchlaufzeiten. Die wichtigsten Features sind die Freitexteingaben aus ERP-Systemen und ähnlichen Tools. Mitarbeiter haben diese in der Vergangenheit als Lösungsanleitungen und Informationshistorie für Abweichungen verfasst.

Nutzung statistischer Methoden

Die Ähnlichkeit zweier solcher Texte vergleichen wir mit etablierten statistischen Methoden zur Textanalyse (z.B. Jaccard-Index, LSA, Kosinus-Ähnlichkeit, Euklidische Distanz). Dafür wandeln wir zunächst die Texte in vergleichbare Vektoren um. Die klassischsten Methoden dafür heißen Bag-of-Words und TF-IDF. Die Texte werden vorher ebenfalls bereinigt, um irrelevante Zufallseinflüsse in den Textvektoren zu entfernen. Hier gehören Methoden wie Stemming, Lemmatisierung, NER, Stopwörter-Entfernung und Tokenisierung zu der gängigen Praxis. Die statistische Ähnlichkeit der bereinigten Textvektoren stellen die wichtigsten Features für das Machine-Learning-Modell dar.

Muster aus der Vergangenheit

Wir wussten außerdem, welche Fehler in der Vergangenheit tatsächlich ähnlich waren. Diese geben wir dem Machine-Learning-Modell als „Lernziel“ mit. Das Modell nimmt die ausgewählten Features und versucht anschließend selbstständig Muster zu finden, die in der Vergangenheit zu einer Ähnlichkeit zweier Abweichungen geführt haben.

Erkenntnisse für die Zukunft

Diese erkannten Muster wenden wir nun auf aktuelle Abweichungen an und erkennen dadurch, welche Fehlerpaare wahrscheinlich am ähnlichsten sind. Die exakte Wahrscheinlichkeit ist dabei gar nicht so relevant – vielmehr geht es in diesem Fall darum, dass die Sortierung korrekt ist und dass einem Mitarbeiter genau die Abweichungen angezeigt werden, die aus allen vergangenen Fällen am ähnlichsten sind.

Visualisierung der Ergebnisse

Am Ende nutzen die Mitarbeiter diese Information als Input für ihre Arbeit und sparen dadurch täglich Zeit bei der Bearbeitung ein. Wir haben dafür eine nutzerzentrierte Frontend-Applikation nach bewährten Designstandards entwickelt. Sie zeigt den Anwendern die ähnlichsten historischen Abweichungen inklusive zahlreicher Eigenschaften und wie diese bearbeitet wurden.

Der Mehrwert in Zahlen

Das Ergebnis spricht für sich:

  • Die Lösung wird heute mehr als 70 aktive Nutzer pro Monat genutzt und spart rund 7.000 Stunden manuellen Bearbeitungsaufwand pro Jahr ein!
  • Über 2 Milliarden Zeilen werden täglich innerhalb einer Stunde performant mit PySpark und Python (pandas, sklearn) verarbeitet.
  • Der Investition in (Cloud-)Datensysteme steht ein signifikant spürbarer ROI gegenüber.

Ausblick

Für die Zukunft planen wir, KI-Agenten zu implementieren, die automatisiert Abweichungen entlang der Wertschöpfungskette identifizieren. Sie geben sofort einen Lösungsvorschlag aus, in Form von Alternativen oder einer Textanleitung. Der Endanwender kann diesen direkt umsetzen oder weiter anpassen. Wir halten es für unrealistisch, dass solche Systeme Mitarbeiter massenhaft ersetzen. Wie bei der Einführung des Internets gilt: Unternehmen werden die Zeitersparnis nicht für weniger Arbeit nutzen. Stattdessen wollen sie in der gleichen Zeit mehr Output erwirtschaften.

Was lernen wir daraus?

Machine Learning Data Products entfalten ihren Wert dann, wenn sie spürbar Aufwand reduzieren, Mitarbeiter im Alltag entlasten und datenbasierte Entscheidungen unterstützen. Genau dafür steht psX Data AnalytiX: Für messbare Ergebnisse, moderne Tools und pragmatische Lösungswege.

Insights

Unsere Projekte