Tag: Data Management

Blog

Der Paradigmenwechsel: ETL oder ELT welche Datenintegrationsstrategie ist die richtige für dein Unternehmen?

Post author By Yves
Post date 15. February 2023

Um den Wert deiner Daten voll auszuschöpfen, ist es entscheidend, eine zentralisierte Datenspeicherung zu haben und gleichzeitig einen flexiblen Zugang zu ermöglichen.

Gerade im Analyse-, Visualisierungs- oder Reporting-Bereich, aber auch dem Marketing ist der Einsatz von ELT essentiell.

In folgendem Blog-Post habe ich für dich die Unterschiede zwischen ETL und ELT, als auch die Vor- und Nachteile festgehalten.

Ein Direktvergleich: ETL vs. ELT

Effiziente Datenintegration: ETL vs. ELT – Unterschiede und Vor- und Nachteile im Vergleich

ETL (Extract, Transform, Load) und ELT (Extract, Load, Transform) sind Methoden der Datenintegration.

The Buchstaben stehen bei beiden Methoden für das Selbe: Extrahieren, Transformieren und Laden

Extrahieren: Extrahieren bezieht sich auf den Prozess des Abrufens von Daten aus einer Quelle oder einem Datenproduzenten, wie einer Datenbank, einer XML, Excel oder einem anderen Dateiformat oder einer Softwareanwendung.
Transformieren: Unter Transformation versteht man den Prozess der Konvertierung des Formats oder der Struktur eines Datensatzes in das Format eines Zielsystems.
Laden: Unter Laden versteht man den Vorgang, einen Datensatz in ein Zielsystem zu überführen.

Die Hauptaufgabe beider Methoden besteht im wesentlichen darin, Daten von einem Ort zum anderen zu übertragen.

Der wichtigste Unterschied, bei ETL werden die Daten vor dem Laden in das Zielsystem umgewandelt, während sie bei ELT erst danach umgewandelt werden.

ETL

ETL ist ein Akronym für “Extrahieren, Transformieren und Laden” und beschreibt die drei Stufen der traditionellen Datenpipeline. Dabei werden Rohdaten aus der Quelle extrahiert, in einem sekundären Verarbeitungsschritt transformiert und anschließend in eine Zieldatenbank geladen.

Diese Methode wurde in den 1970er-Jahren entwickelt und ist nach wie vor bei On-Premise-Datenbanken mit begrenztem Speicher und begrenzter Verarbeitungsleistung weitverbreitet.

ETL Visualisierung

In der Vergangenheit und vor dem Aufkommen der modernen Cloud war ETL notwendig, weil Speicherplatz und Rechenleistung begrenzt und entsprechend kostenintensiv waren.

ETL ermöglichte es Unternehmen, weniger ihrer knappen technologischen Ressourcen (Rechenleistung und Speicherplatz) zu verwenden. Für alles, was man an Bandbreite und Speicherplatz einsparen konnte, musste man wiederum Unmengen an Geld für Entwickler:innen ausgeben.

Hauptproblem

Das Hauptproblem war der Mangel an Standardisierung. Die Verwendung von ETL bedeutete, dass Daten-Pipelines auf der Grundlage jeder Datenquelle und jedes Ziels meist individuell entworfen und entwickelt werden mussten. Das bedeutete, dass man Entwickler:innen mit den richtigen Fähigkeiten brauchte, um Daten-Pipelines zu erstellen, zu pflegen und weiterzuentwickeln, sobald sich die Datenquellen ändern und weiterentwickeln.

ELT

ETL steht für “Extrahieren, Laden und Transformieren”.

Dabei handelt es sich um eine Methode zur Datenaufnahme, bei der Daten aus mehreren Quellen in ein Cloud-Data-Warehouses – Snowflake, Amazon Redshift und Google BigQuery -, Data Lake oder einen Cloud-Speicher übertragen werden. Von dort aus können die Daten je nach Bedarf für verschiedene Unternehmenszwecke und Anwendungsfälle umgewandelt und verwendet werden.

Im Gegensatz zu ETL müssen beim Extrahieren, Laden und Transformieren (ELT) vor dem Ladevorgang keine Datenumwandlungen vorgenommen werden.

ELT Visualisierung

Der Nutzen von ELT ist mit der zunehmenden Dynamik, Geschwindigkeit und Menge der Daten explodiert. Und sie wird durch eine zunehmend erschwingliche Cloud-Infrastruktur ermöglicht.

Außerdem erfordert ELT im Gegensatz zu ETL weniger technische Mitarbeitende. Durch die Trennung von Extraktion und Transformation ermöglicht ELT Analysten, Transformationen mit SQL durchzuführen. Diese Idee ist der Schlüssel zum Erfolg von ELT, da sie es mehr Abteilungen ermöglicht, ihren Datenzugriff selbst zu verwalten.

Ein wesentlicher Aspekt, warum ELT so viel weniger arbeitsaufwendig ist, besteht darin, dass es eine größere Standardisierung ermöglicht.

Techniker:innen und Entwickler:innen können auf vorgefertigten Extraktions- und Ladelösungen für gängige Datenquellen aufbauen. Und für individuelle und kompliziertere Datenquellen können sie das Fachwissen externer Anbieter und die standardisierten Grundlagen von bestehenden Systemen zurückgreifen.

Vorteil

Weniger Arbeitsaufwendig
Kosteneffizienter
Geschwindigkeit: Daten und Informationen immer bereit zur Verwendung
Weniger Entwickler:innen und Techniker:innen benötigt

Was sind die Vorteile von ELT versus ETL?

Mit der ETL-Methode jedoch, bei der die Daten umgewandelt werden, bevor sie in Ihr Zielsystem geladen werden, gehst du bereits im Vorhinein von Annahmen darüber aus, wie diese Daten in der Zukunft verwendet werden.

Wenn sich die Anforderungen ändern, muss die gesamte ETL-Pipeline angepasst werden. Das erfordert unter Umständen spezielle Kenntnisse, erhöhte Sicherheitsberechtigungen und Unterstützung von Expert:innen.

Das ETL-Paradigma entstand in den 1970er Jahren und wurde in der Vergangenheit verwendet, um Daten zu entfernen und/oder zu ändern, bevor sie an ein Ziel gesendet wurden. Das Entfernen von Daten war in der Vergangenheit aufgrund der hohen Kosten für die Rechenleistung und Speicherung notwendig. Die Kosten für die Rechen- und Speicherleistung sind jedoch im Laufe der Jahre drastisch gesunken, wie die folgende Abbildung zeigt. Dadurch sind ELT-Pipelines, die sowohl die Rohdaten als auch die umgewandelten Daten am Zielort speichern, wirtschaftlich rentabel geworden.

Historical computer memory and storage costs

Im Gegensatz zu ETL entspricht der ELT-Ansatz der Realität des sich schnell ändernden Datenbedarfs. Da der ELT-Prozess die Daten nach dem Laden umwandelt, ist es nicht erforderlich, im Voraus genau zu wissen, wie die Daten verwendet werden – neue Umwandlungen können an den Rohdaten vorgenommen werden, wenn der Bedarf entsteht.

Darüber hinaus können Analysten immer auf die ursprünglichen Rohdaten zugreifen, da deren Integrität durch nachfolgende Transformationen nicht beeinträchtigt wird.

Dies gibt den Analysten Unabhängigkeit von den Entwicklern und der IT, da es nicht notwendig ist, die Pipelines zu ändern. Wenn am Zielort eine unveränderte Rohfassung der Daten vorhanden ist, können diese Daten umgewandelt werden, ohne dass eine erneute Synchronisierung der Daten aus den Quellsystemen erforderlich ist.

Fazit

Der wichtigste Unterschied zwischen beiden Methoden besteht darin, dass bei ETL die Daten vor dem Laden in das Zielsystem transformiert werden, während sie bei ELT erst nach dem Laden umgewandelt werden.

Businessanforderungen und Anforderungen an die Datenanalyse ändern sich schnell.

Daher ist ELT gerade im Analyse, Visualisierungs- oder Reporting-Bereich, aber auch Marketing essentiell.

Daten-Endanwender:innen, also Personen, die Reports erstellen, (Daten Analysten, Business Analysten, das Marketing etc.) benötigen einen flexiblen Zugriff auf diese Daten.

Denn nur dadurch können deine Daten wertstiftend für Visualisierungen und Reports für den Vertrieb, das Service-Team und das Management oder das Marketing, für Marketingmaßnahmen und Marketingautomatisierung eingesetzt werden.

Daher lässt sich im Fazit sagen, dass ETL und ELT beide Methoden zur Integration von Daten sind, die in verschiedenen Szenarien eingesetzt werden können.

Tags Data Management, Data Strategy, Datasynchronisation, Datensynchronisation

Blog Datenmanagement

In 3 Schritten zu deinem modernen Datenmanagement im Handel

Post author By Yves
Post date 23. January 2023

Was sind die entscheidenden Komponenten, um heute modernes Datenmanagement in dein Handelsunternehmen zu integrieren?

Um heute modernes Datenmanagement zu betreiben, benötigt man eine Vielzahl von unterschiedlichen Anwendungen aus dem „modern data stack“. Diese Anwendungen bewegen sich meist in ihrer eigenen Kategorie und erfüllen einen speziellen Zweck.

Was sind die entscheidenden Komponenten, um ein holistisches Gesamtkonstrukt zu erschaffen und die Grundlage für ein modernes Datenmanagement zu bilden.

Durch die folgenden drei Schritte eröffnest du dir und deinem Handelsunternehmen ganz neue Möglichkeiten:

Integration: Datensynchronisation
Speicherung: Data Warehouse
Visualisierung: Business Intelligence

1. Integration: Datensynchronisation – der zentrale Knotenpunkt für den bidirektionalen Austausch

Mit dem Aufbau der Datensynchronisation wird die Grundlage und der wesentlichste Teil eines modernen Datenmanagements gesetzt. Dabei ist wichtig darauf zu achten, dass Standards verwendet werden, um eine einfache Integration, Wartung und Weiterentwicklung gewährleisten zu können.

Datensynchronisation ermöglichen dir und deinem Handelsunternehmen, Daten bidirektional und in Echtzeit mit deinen Systemen auszutauschen.

Hierzu gehört unter anderem der Austausch in Anwendungen, wie einem Produktinformationsmanagement (PIM) zum Verwalten der Produktinformationen oder einem Customer Relationship Management (CRM) für die vertrieblichen Kundendaten oder Marketinganwendungen.

Zudem müssen Kundensysteme wie Bestellplattformen oder Shopsysteme als auch Kundeninformationssysteme zum Verwalten von den eigenen Daten und Informationen mit Daten beliefert werden.

Wesentlich dabei ist jedoch nicht nur der Austausch in eine Richtung. Zentrale Datensynchronisation synchronisiert auch Daten wie Bestellungen, Adressen und wesentliche Kundendaten aus Kundensystemen, wie Enterprise Resource Planning (ERP) oder Shopsystemen in die Anwendungen in deinem Unternehmen.

Ein bidirektionaler Austausch ist essentiell, um die Datenaktualität in allen Systemen zu gewährleisten.

Tools: Kafka, Confluent, Airbyte, Matillion

2. Speicherung: Die zentrale Datenhaltung und -speicherung in einem Data Warehouse

Die Kosten von Cloud-Datenspeichern haben sich in der Vergangenheit drastisch reduziert. Demnach werden in der Regel alle Unternehmensdaten in einem Data Warehouse gespeichert. Diese werden meist über ELT-Prozesse in der Datenintegration zur weiteren Verwendung unstrukturiert in einem Cloud-basierten Data Warehouse gespeichert.

Anschließend können diese Daten für BI (Business Intelligence)– oder Machine Learning-Aktivitäten verwendet werden, um Analysen zu erstellen und die Daten wertschöpfend zu nutzen.

Tools: Snowflake, Google BigQuery, Amazon Redshift

3. Visualisierung: Nutze die Potentiale deiner Daten durch Business Intelligence

Die Daten aus dem Warehouse können nun bereits genutzt werden.

Mit einem Business Intelligence (BI) Tool können Unternehmen ihre Daten analysieren und anschließend mithilfe von Dashboards visualisieren.

Der Zugriff auf Daten über BI-Anwendungen eröffnet dir und deinen Mitarbeitenden ganz neue Möglichkeiten. Der Außendienst kann sich besser auf Gespräche vorbereiten, um den Kund:innen eine umfassendere Beratung zu bieten. Der Innendienst wiederum kann die Unterstützung und das Anleiten der Kund:innen am Telefon verbessern. Das Management bekommt Reports und Informationen zu vergangenen, aktuellen und kommenden Ereignissen.

Die Zugriffsmöglichkeit für alle Mitarbeitenden im Unternehmen sollte dabei dringend gewährleistet sein. Für alle Personen im Unternehmen sollten datenbasierte Entscheidungen möglich sein. Durch die entsprechende BI-Anwendung wird die Self-Service-Mentalität im Unternehmen stark gefördert.

Tools: Metabase, Power BI, Tableau

Wrap Up

Die Integration der Datensynchronisation ist im Wesentlichen der entscheidende Grundstein für ein modernes Datenmanagement. Um den der Wert deiner Daten und des modernen Datenmanagements noch weiter auszuschöpfen und dir und deinem Team neue Möglichkeiten zu eröffnen, benötigt es einer zentralen Datenspeicherung für alle relevanten Unternehmensdaten, als auch der Visualisierung und Auswertung deiner Daten.

Tags Data Management, Data Strategy, Datasynchronisation, Datenanalyse, datenstrategie, Datensynchronisation

Blog

Datenaustausch über Messaging-Systeme

Post author By Moritz
Post date 07. December 2022

Die Systemlandschaft wird zunehmend komplexer. Längst werden Arbeitsprozesse digital in vielen unterschiedlichen Systemen bearbeitet. Eine Entwicklung weg von den monolithischen ERP-Giganten, welche versuchen, alle Prozesse in einem geschlossenen System abzubilden, hin zu agilen Satellitensystemen, die jeweils auf den entsprechenden Anwendungsfall spezialisiert sind – diese Herangehensweise wird auch „Best of Breed“ genannt. Damit solch eine moderne Infrastruktur funktioniert, muss die Kommunikation und der Austausch von Daten zwischen den Systemen reibungslos funktionieren. Dabei stoßen die Systeme, bzw. die Art der Kommunikation zwischen den Systemen immer wieder auf die gleichen Herausforderungen:

Genau wie in einer Lieferkette gibt es einen Produzenten, welcher die Ware aussendet und einen Konsumenten am Ende der Kette, der die Ware entsprechend empfangen soll.

Herausforderung 1: Auslieferung nicht möglich
Stellt man sich den Austausch der Daten vor wie eine Lieferkette, so kann es zum Beispiel vorkommen, dass ein System, welches Daten empfangen und konsumieren soll, aufgrund von Wartungsarbeiten oder einem temporären Ausfall nicht zu erreichen ist.

Das produzierende System kann die Daten nicht erfolgreich ausliefern und stößt schnell an die eigenen Kapazitäten, bevor das empfangende System wieder verfügbar ist.

Herausforderung 2: Zu kleines Lager

Eine besondere Herausforderung in einer nicht aufeinander abgestimmten Lieferkette ist bspw., wenn das sendende System, die Kapazitäten des Empfängers nicht kennt oder ignoriert. Stell dir vor, ein Lager mit sehr kleiner Kapazität würde unaufhörlich LKW Ladungen neuer Ware geliefert bekommen. Das Lager wäre in kürzester Zeit überfordert und nicht mehr in der Lage, Prozesse einzuhalten. Das Gleiche gilt für ein empfangendes System, welches mit Daten überhäuft wird – das System ist technisch nicht in der Lage eine zu große Datenflut zu verarbeiten und stürzt ab (DoS).

Herausforderung 3: Auslieferung ohne Lieferschein

Eine weitere potenzielle Fehlerquelle bei der Auslieferung von Daten, ist, wenn die Auslieferung nicht entsprechend als angenommen quittiert wird, ähnlich wie eine Auslieferung ohne bestätigten Lieferschein. Das empfangende System beginnt mit der Annahme der Daten und stürzt plötzlich ab. Das sendende System geht davon aus, dass alles entsprechend verarbeitet wurde, obwohl dies nicht der Fall ist.

Diese und andere Herausforderungen haben oft Fehler zufolge, welche sowohl in einer Lieferkette, als auch im Austausch von Daten, Unzufriedenheit, Unordnung und ggf. verlorenen Umsatz bedeuten. Um diese Probleme zu lösen, setzt man Messaging-Systeme, wie z.B. Apache Kafka ein, die zwischen Sender und Empfänger platziert werden.

Diese könnte man in der Analogie zur Lieferkette mit einer Auftragsverarbeitung vergleichen, die überwacht und gemanaged wird. Jeder Auftrag ist eine Message / Nachricht, die vom Sender in das Messaging-System geschrieben wird.

Ist ein Messaging-System nicht nur ein weiteres System in der „Lieferkette“ und warum sollten dort nicht die gleichen Herausforderungen auftauchen?

Ja, es ist ein weiteres Glied in der Kette, jedoch um genau diese Herausforderungen gezielt anzugehen.

Das Messaging-System kann ggü. anderen Drittsystemen vom Unternehmen selbst oder einem Dienstleister gemanagt werden. Diese Kontrolle hat ein Unternehmen selten über alle seine Systeme, da diese oft als Software as a Service betrieben werden oder die Daten direkt in Systeme anderer Unternehmen fließen (z.B. Marktplatzanbindungen oder ERP-Systeme). So kann sichergestellt werden, dass die Kapazitäten auf die eigenen Anforderungen und Datenlast angepasst werden.

Ein Messaging-System ist durch Redundanzen so aufgestellt, dass es als besonders ausfallsicher gilt. Die einzige Aufgabe des Systems ist der Austausch von Daten. Sollte eine Komponente ausfallen, übernimmt sofort eine andere identische, um sicherzustellen, dass keine Information verloren gehen kann.

Ein entscheidender Unterschied ist außerdem, dass diese Nachrichten von den empfangenden Systemen abgeholt werden müssen, und somit sichergestellt wird, dass auch alles korrekt in Empfang genommen wurde.

Damit bietet ein Messaging-System wie Kafka entscheidende Vorteile ggü. einem direkten Datenaustausch über REST-API. Zudem können die eingesetzten Event-Streams, schnell und einfach für weitere Systeme verwendet werden, um Daten in Echtzeit zwischen sämtlichen Systemen zu synchronisieren.

Wenn du mehr über Kafka und Event-Streaming erfahren möchtest:
Was ist Kafka

Tags Data Management, Datasynchronisation, Datensynchronisation, Event-Streaming, Kafka

Blog

Reduziere als Händler deine Kosten durch Real-time data streaming

Post author By Yves
Post date 02. November 2022

In vielen Gesprächen mit Experten aus dem Handel hat sich immer wieder herausgestellt, dass Nachlieferungen und Fehlbestellungen zwei der größten Kostentreiber sind.

Bei einer Fehlbestellung werden meist eine ganze Kette an Aufgaben losgetreten und führen unweigerlich zu hohen operativen Kosten in deinem Unternehmen, als auch bei deinen Kund:innen.

Werden anschließend Nachlieferungen vereinbart, muss zudem die gesamte Kette der Bestellung, also die Logistik, Kommissionierung und der Versand, um nur ein paar zu nennen, erneut ausgeführt werden.

Fehlbestellungen entstehen überwiegend durch falsche oder veraltete Daten und Angaben. Diese sind unter anderem individuelle Kund:innen Vereinbarungen wie Preise, Gebühren und Lieferkosten. Aber auch falsche Produktinformationen und Bestandsinformationen sind häufige Ursachen von Fehlbestellungen.

Durch ein Real-time data streaming werden Aktualisierungen in Echtzeit für dein Team und deine Kund:innen in allen angeschlossenen Systemen bereitgestellt. Diese Systeme sind unter anderem das Customer Relationship Management (CRM) für den Vertrieb, dem ERP für den Einkauf, deine Marketingkommunikation und den Shop Systemen.

Dadurch vermeidest du Fehlbestellungen, reduzierst deine operativen Kosten und vermeidest teure Nachlieferungen. Darüber hinaus gewinnst du die Zufriedenheit deiner Kund:innen.

Kostenreduzierung und erhöhte Kund:innenzufriedenheit durch aktuellste Daten sind nur zwei von vielen Vorteilen, den dir als Händler das Real-time data streaming bringt.