Blog PIKON Deutschland AG
Search
blank

So bauen Sie eine zukunftssichere Data Warehouse Architektur auf

Inhalt

Was ist eine Data Warehouse Architektur?

Stellen Sie sich vor, Sie sind der IT-Direktor eines mittelständischen Unternehmens. Ihre Aufgabe ist es, sicherzustellen, dass alle Abteilungen – von der Finanzabteilung bis zum Marketing – Zugriff auf die Daten haben, die sie benötigen, um fundierte Entscheidungen zu treffen. Doch plötzlich häufen sich die Beschwerden: Die Berichte dauern zu lange, die Daten sind inkonsistent, und die IT-Abteilung wird mit Anfragen überhäuft. Klingt das bekannt?

Genau hier kommt die Data-Warehouse-Architektur ins Spiel. Sie ist das Rückgrat jeder datengesteuerten Organisation und entscheidet darüber, ob Daten ein Fluch oder ein Segen sind. In diesem Blogbeitrag erfahren Sie, was eine Data-Warehouse-Architektur ist, warum sie so wichtig ist und wie Sie mit modernen Lösungen die Herausforderungen von heute meistern können.

Eine Data-Warehouse-Architektur ist das strukturelle Gerüst, das festlegt, wie Daten in einem Unternehmen gesammelt, gespeichert, verarbeitet und genutzt werden. Sie besteht aus verschiedenen Schichten und Komponenten, die zusammenarbeiten, um Daten aus unterschiedlichen Quellen zu integrieren, zu bereinigen und für Analysen bereitzustellen.

Die Architektur kann je nach Anforderungen des Unternehmens unterschiedlich gestaltet sein – von einfachen Ein-Schicht-Architekturen bis hin zu komplexen, verteilten Systemen. Das Ziel ist immer dasselbe: Daten in verwertbare Informationen zu verwandeln.

Data-Warehouse-Architekturen lassen sich in zwei Hauptkategorien einteilen:

1. Strukturorientierte Architekturen – Diese unterscheiden sich durch die Anzahl der verwendeten Schichten:

  • Ein-Schicht-Architektur
  • Zwei-Schicht-Architektur
  • Drei-Schicht-Architektur

2. Funktionsorientierte Architekturen – Diese unterscheiden sich durch die Art der Hauptkomponenten:

  • Eigenständige Data Marts
  • Bus-Architektur
  • Hub-and-Spoke-Architektur
  • Zentralisierte Architektur
  • Verteilte Architektur

Im Folgenden stellen wir die verschiedenen Architekturen vor und erläutern ihre Besonderheiten sowie ihre Vor- und Nachteile.

Strukturorientierte Architekturen

Ein-Schicht-Architektur

Diese Architektur ist selten in der Praxis zu finden. Ihr primäres Ziel ist es, Redundanzen durch minimale Datenspeicherung zu vermeiden. Eine wesentliche Schwäche dieser Struktur liegt in der fehlenden Trennung zwischen analytischer und transaktionaler Datenverarbeitung. Daher eignet sie sich nicht für komplexe Analysen oder große Datenmengen.

Data Warehouse Architektur: Single Layer
Abbildung 1: Ein-Schicht-Architektur

Zwei-Schicht-Architektur

Diese Architektur besteht aus einer Quellsystem-Schicht und einer Data Warehouse Schicht, die durch eine Bereitstellungsschicht für alle Datenquellen getrennt ist. Dies stellt sicher, dass vor dem Laden in das Data Warehouse alle Daten korrekt bereinigt und formatiert sind. Allerdings ist diese Architektur weniger skalierbar und eignet sich eher für kleine bis mittelgroße Unternehmen.

Data Warehouse Architektur: Two Layer
Abbildung 2: Zwei-Schicht-Architektur

Drei-Schicht-Architektur

Diese Architektur unterteilt die Struktur in drei physische Schichten:

  1. Quellsystem Schicht – Erfassung der Rohdaten aus verschiedenen Systemen.
  2. Transformationsschicht – Bereinigung, Aggregation und Umwandlung in betriebsfähige Informationen.
  3. Data Warehouse Schicht – Speicherung und Bereitstellung für Analysezwecke.

Diese Form ist am weitesten verbreitet und eignet sich besonders für große Unternehmen, die hohe Datenqualität und Integration benötigen.

Data Warehouse Architektur: Three Layer
Abbildung 3: Drei-Schicht-Architektur

Funktionsorientierte Architekturen

Eigenständige Data Marts

Diese Architektur besteht aus mehreren unabhängigen Data Marts, die getrennt voneinander entwickelt wurden. Da keine Integration zwischen ihnen besteht, haben sie oft inkonsistente Datenstrukturen und erschweren eine unternehmensweite Analyse. Diese Architektur wird meist durch eine besser integrierte Lösung ersetzt.

Data Warehouse Architektur: Data Marts
Abbildung 4: Eigenständige Data Marts-Architektur

Bus-Architektur

Die Bus-Architektur, empfohlen von Ralph Kimball, ähnelt der Architektur der eigenständigen Data Marts, allerdings mit einer wesentlichen Verbesserung: Die Data Marts sind logisch integriert, wodurch eine unternehmensweite Sicht auf die Daten ermöglicht wird.

blank
Abbildung 5: Bus-Architektur

„Hub-and-Spoke“-Architektur

Diese Architektur besteht aus:

  • Einem zentralen Enterprise Data Warehouse (Hub), das alle Rohdaten speichert.
  • Mehreren Data Marts (Spokes), die aus dem zentralen Warehouse mit bereinigten, aggregierten Daten versorgt werden.
  • Einer Transformationsschicht, die als Zwischenspeicher für normalisierte Daten dient.

Diese Architektur ist besonders skalierbar und eignet sich für Unternehmen mit großen Datenmengen.

blank
Abbildung 6: Hub and Spoke-Architektur

Zentralisierte Architektur

Die zentralisierte Architektur, empfohlen von Bill Inmon, ist eine spezielle Form der Hub-and-Spoke-Architektur. Der wesentliche Unterschied besteht darin, dass es keine abhängigen Data Marts gibt. Stattdessen enthält ein zentrales Data Warehouse alle Daten und stellt sie für Analysen bereit. Diese Architektur bietet eine hohe Datenqualität und -integration, kann jedoch hohe Implementierungskosten verursachen.

blank
Abbildung 7: Zentralisierte Architektur

Verteilte Architektur

Die verteilte Architektur wird eingesetzt, wenn mehrere bestehende Data Warehouses oder Data Marts integriert werden müssen. Dies erfolgt durch:

  • Gemeinsame Schlüssel (Joint Keys)
  • Globale Metadatenverwaltung
  • Verteilte Abfragen

Diese Architektur eignet sich besonders für Unternehmen mit verteilten Standorten oder dynamischen Anforderungen.

Die Wahl der richtigen Data-Warehouse-Architektur hängt von verschiedenen Faktoren ab, darunter Skalierbarkeit, Integrationsanforderungen und bestehende IT-Infrastrukturen.

Während zentrale Architekturen eine hohe Datenqualität bieten, ermöglichen verteilte Architekturen eine größere Flexibilität. Unternehmen sollten ihre individuellen Anforderungen sorgfältig abwägen, bevor sie sich für eine Architektur entscheiden.

Warum ist die Data Warehouse Architektur wichtig?

In der heutigen datengetriebenen Geschäftswelt bildet die Data Warehouse Architektur das Rückgrat für fundierte Unternehmensentscheidungen. Unternehmen stehen vor der Herausforderung, eine Vielzahl von Daten aus unterschiedlichen Quellen zu integrieren und in einem konsistenten Format bereitzustellen.

Eine gut durchdachte Architektur gewährleistet, dass diese Daten in hoher Qualität, aktuell und nachvollziehbar vorliegen, was die Basis für präzise Analysen und strategische Entscheidungen bildet.

Die zentrale Rolle eines Data Warehouses liegt darin, den Entscheidungsträgern nicht nur einen schnellen Zugriff auf historische und aktuelle Daten zu ermöglichen, sondern auch die Grundlage für den Einsatz moderner Business-Intelligence-Tools (BI) zu schaffen. Durch die einheitliche Aufbereitung und Strukturierung der Daten werden Zusammenhänge sichtbar, die ohne eine solche Architektur im Datenchaos untergehen würden. Letztlich resultiert dies in einer optimierten Entscheidungsfindung und einer erhöhten Wettbewerbsfähigkeit des Unternehmens, da datenbasierte Strategien schneller und effizienter entwickelt werden können.

Wie ist ein Data Warehouse aufgebaut?

Der Aufbau einer Data-Warehouse-Architektur erfolgt in mehreren klar definierten Schritten, die sicherstellen, dass Daten effizient erfasst, verarbeitet und für Analysen bereitgestellt werden.

Zunächst werden Rohdaten aus verschiedenen Quellsystemen gesammelt – dazu gehören interne Datenbanken, externe Anwendungen oder weitere digitale Datenquellen. Diese Daten bilden die Grundlage für alle Analysen.

Im nächsten Schritt erfolgt die Datenintegration über den ETL-Prozess (Extract, Transform, Load). Dabei werden die Daten extrahiert, bereinigt und in ein einheitliches Format überführt. Ein Staging-Bereich dient als Zwischenspeicher, um die Qualität der Daten zu prüfen, bevor sie in das zentrale Data Warehouse geladen werden.

Das Herzstück der Architektur bildet die Datenbank, die speziell für analytische Abfragen optimiert ist. Hier werden die Daten in Faktentabellen und Dimensionstabellen strukturiert, um schnelle und präzise Analysen zu ermöglichen. Ergänzend dazu kommen Data Marts zum Einsatz – themenspezifische Datenbereiche, die gezielt einzelne Abteilungen unterstützen und detaillierte Einblicke liefern.

Den Abschluss bildet die BI-Schicht, die als Schnittstelle zwischen den aufbereiteten Daten und den Nutzern dient. Moderne BI-Tools ermöglichen es, interaktive Dashboards, Berichte und Visualisierungen zu erstellen, die datengetriebene Entscheidungen unterstützen.

Durch diese strukturierte Architektur können Unternehmen nicht nur große Datenmengen effizient verarbeiten und speichern, sondern auch ihre Analyseprozesse kontinuierlich optimieren und skalieren.

blank
Abbildung 9: Data-Warehouse-Architektur

7 Erfolgsfaktoren beim Aufbau einer modernen Data Warehouse Architektur

Skalierbarkeit und Leistungsfähigkeit

Eine moderne Data-Warehouse-Architektur muss mitwachsen können. On-Premise-basierte Lösungen wie SAP BW/4HANA bieten dank ihrer In-Memory-Technologie genügend Leistung für eine nahezu Echtzeitverarbeitung aller Daten. Cloud-basierte Lösungen wie SAP Datasphere hingegen bieten enorme Vorteile in Bezug auf Flexibilität, da sie ohne zusätzliche Hardware skaliert werden können.

Skalierbarkeit bezieht sich nicht nur auf die Datenmenge, sondern auch auf die Anzahl der Benutzer sowie die Komplexität der Abfragen. Eine gut skalierbare Architektur ermöglicht sowohl vertikales Wachstum (durch das Hinzufügen weiterer Ressourcen zu einem bestehenden System) als auch horizontales Wachstum (durch das Hinzufügen zusätzlicher Server).

Nahtlose Datenintegration

Daten kommen aus verschiedenen Quellen und müssen harmonisiert werden. Lösungen wie SAP Datasphere ermöglichen eine nahtlose Integration von Daten aus unterschiedlichen Systemen, sodass Unternehmen eine einheitliche Sicht auf ihre Daten erhalten. Die Integration umfasst nicht nur die technische Zusammenführung von Daten, sondern auch die Sicherstellung, dass die Daten konsistent und qualitativ hochwertig sind. Dies erfordert oft die Verwendung von ETL-Tools (Extract, Transform, Load), die Daten aus verschiedenen Quellen extrahieren, transformieren und in das Data Warehouse laden.

Real-Time Analytics

Echtzeit-Analysen sind heute ein Muss. Moderne Data Warehouses bieten die Möglichkeit, Daten in Echtzeit zu verarbeiten und zu analysieren, was Unternehmen einen Wettbewerbsvorteil verschafft. Real-Time Analytics ermöglicht es Unternehmen, schnell auf Veränderungen im Markt oder im Kundenverhalten zu reagieren. Dies erfordert eine Architektur, die in der Lage ist, große Datenmengen in Echtzeit zu verarbeiten, ohne die Leistung zu beeinträchtigen.

Kosteneffizienz

Durch die Nutzung von Cloud-Lösungen können Unternehmen die Kosten für die Datenverarbeitung erheblich reduzieren. Pay-as-you-go-Modelle und die Möglichkeit, Ressourcen dynamisch zuzuweisen, machen die Cloud zu einer kosteneffizienten Option. Darüber hinaus können Unternehmen durch die Nutzung von Open-Source-Tools und die Automatisierung von Prozessen weitere Kosteneinsparungen erzielen.

Datenschutz and Compliance

Mit der zunehmenden Bedeutung von Datenschutzgesetzen wie der „Datenschutz-Grundverordnung (DSGVO)“ ist es entscheidend, dass die Data Warehouse Architektur Sicherheits- und Compliance-Anforderungen erfüllt. Moderne Lösungen bieten integrierte Sicherheitsfunktionen und unterstützen die Einhaltung gesetzlicher Vorschriften. Dies umfasst die Verschlüsselung von Daten, Zugriffskontrollen und die regelmäßige Überprüfung der Datensicherheit.

Cloud- und Hybrid-Lösungen

Die Cloud bietet Flexibilität und Skalierbarkeit, aber nicht jedes Unternehmen kann oder will vollständig in die Cloud wechseln. Hybrid-Lösungen, die On-Premise- und Cloud-Systeme kombinieren, bieten das Beste aus beiden Welten. Diese Architekturen ermöglichen es Unternehmen, die Vorteile der Cloud zu nutzen, während sie gleichzeitig sensible Daten lokal speichern können.

Self-Service BI and Usability

Self-Service-BI-Tools ermöglichen es Endnutzern, selbstständig Berichte und Analysen durchzuführen, ohne auf die IT-Abteilung angewiesen zu sein. Dies erhöht die Benutzerfreundlichkeit und entlastet die IT. Tools wie Power BI und vor allem die SAP Analytics Cloud  bieten intuitive Benutzeroberflächen, die es auch technisch weniger versierten Benutzern ermöglichen, komplexe Datenanalysen durchzuführen.

Moderne Data Warehouse Lösungen von SAP

SAP BW/4HANA

SAP BW/4HANA basiert auf der leistungsstarken In-Memory-Technologie von SAP HANA und folgt einer mehrschichtigen Architektur, die speziell für analytische Anwendungen optimiert ist. Im Kern gliedert sich die Architektur in folgende Schichten:

  • Datenakquisition und -extraktion:
    Daten werden aus diversen Quellsystemen – etwa ERP-Systemen wie SAP S/4HANA oder anderen relationalen Datenbanken – extrahiert. Dabei kommen SAP-eigene oder generische Extraktoren zum Einsatz, die eine konsistente und effiziente Datenübertragung gewährleisten.
  • Staging und Transformation:
    Nach der Extraktion werden die Daten in einem Staging-Bereich zwischengespeichert. Hier findet der ETL-Prozess (Extract, Transform, Load) statt, bei dem die Daten bereinigt, transformiert und in ein einheitliches Format überführt werden. Dieser Schritt sichert die Datenqualität und bereitet sie für die weitere Modellierung vor.
  • Datenmodellierung:
    Die transformierten Daten werden vor allem in aDSOs (advanced DataStore Objects) als InfoProvider organisiert. Diese Modelle ermöglichen die Abbildung von Geschäftsprozessen in Form von Kennzahlen, Merkmalen und Hierarchien, die speziell auf analytische Fragestellungen zugeschnitten sind.
  • Reporting und Analyse:
    Auf der obersten Ebene werden die modellierten Daten über Reporting-Tools und Business-Intelligence-Lösungen, beispielsweise der SAP Analytics Cloud, visualisiert und analysiert. Diese Schicht stellt Endanwendern intuitive Möglichkeiten zur Erstellung von Berichten und Dashboards bereit.

Als Guideline zum Aufbau eines BW/4HANA Data Warehouses steht die Referenz-Architektur LSA++ (Layered Scalable Architecture) zur Verfügung. Sie optimiert die klassische LSA-Architektur, indem sie redundante Datenpersistenzen reduziert und verstärkt auf virtuelle Datenmodelle setzt. Die Schichten der Architektur – von der Datenakquisition über die Transformation bis hin zur Analyse – werden dadurch schlanker und effizienter. Durch die Nutzung von Advanced DataStore Objects (aDSOs) und Composite Providern ermöglicht LSA++ eine leistungsfähige, flexible und wartungsfreundliche Datenverarbeitung, die speziell auf die In-Memory-Technologie von SAP HANA abgestimmt ist.

SAP Datasphere

SAP Datasphere, als zentraler Bestandteil der SAP Business Data Cloud, repräsentiert einen modernen, cloud-nativen Ansatz für das Data Warehousing. Seine Architektur ist darauf ausgelegt, heterogene Datenquellen – sowohl SAP- als auch Non-SAP-Systeme – in einem einheitlichen, flexiblen Datenmodell zusammenzuführen. Die wesentlichen Architekturkomponenten sind:

  • Datenintegration und -virtualisierung:
    Anstatt Daten vollständig zu replizieren, ermöglicht SAP Datasphere eine föderierte Datenarchitektur. Mit Hilfe von Datenvirtualisierung und modernen Konnektoren können Daten in Echtzeit oder in regelmäßigen Intervallen integriert werden. Dies reduziert den administrativen Aufwand und sorgt für stets aktuelle Daten.
  • Semantische Modellierung und Data Catalog:
    Ein zentrales Merkmal ist der Business Data Fabric-Ansatz, bei dem Daten über einen einheitlichen, semantischen Layer harmonisiert werden. Mithilfe eines integrierten Data Catalogs können Datenquellen klassifiziert, verknüpft und mit Geschäftskontext versehen werden, sodass Endanwender intuitiv auf die Informationen zugreifen können.
  • Spaces und Self-Service:
    SAP Datasphere nutzt das Konzept von „Spaces“, in denen spezifische Datenmodelle und Anwendungsfälle abgebildet werden. Diese Umgebungen ermöglichen es sowohl IT- als auch Fachabteilungen, eigenständig Daten zu modellieren und zu analysieren. Dadurch wird eine agile Self-Service-Analytik gefördert, die traditionelle IT-Prozesse entlastet.
  • Nahtlose Integration mit BI-Tools:
    Ein entscheidender Vorteil von SAP Datasphere ist das Konzept des Seamless Planning, welches eine durchgängige Verbindung zwischen Datenanalyse und Planung ermöglicht. Durch die enge Integration mit der SAP Analytics Cloud können Unternehmen nicht nur historische und aktuelle Daten analysieren, sondern auch Planungsszenarien direkt im gleichen System erstellen und anpassen. Diese nahtlose Verknüpfung von Datenintegration, Modellierung und Planung sorgt für eine agile und kollaborative Entscheidungsfindung, ohne dass Daten manuell verschoben oder dupliziert werden müssen.

Mit diesem modernen Architekturansatz bietet SAP Datasphere Unternehmen die Flexibilität, auf dynamische Marktanforderungen zu reagieren und gleichzeitig eine zentrale, konsistente Datenbasis zu erhalten – ein entscheidender Vorteil in der heutigen, datengetriebenen Wirtschaft

Beide Architekturen adressieren unterschiedliche Anforderungen: Während SAP BW/4HANA auf eine bewährte, strukturierte Datenverarbeitung in bestehenden SAP-Umgebungen setzt, eröffnet SAP Datasphere als cloudbasierte Lösung neue Möglichkeiten der Datenintegration, Flexibilität und Selbstbedienungsanalytik. Diese Komplementarität ermöglicht es Unternehmen, ihre Datenlandschaft strategisch zu modernisieren und zukunftssicher zu gestalten.

SAP Business Data Cloud

Die Art und Weise, wie Unternehmen Daten speichern und analysieren, entwickelt sich rasant weiter. Während klassische Data Warehouse Architekturen nach wie vor wichtig sind, bieten neue Technologien mehr Flexibilität und Effizienz. Besonders spannend ist die Entwicklung hin zum Lakehouse-Modell, das die Vorteile von Data Warehouses und Data Lakes vereint.

Was ist ein Lakehouse?

Traditionelle Data Warehouses sind leistungsstark, wenn es um die Verarbeitung strukturierter Daten geht, also Daten, die in klar definierten Tabellen und Spalten vorliegen. Sie garantieren eine hohe Datenqualität, sind aber oft teuer und weniger flexibel, wenn es um große Datenmengen oder unstrukturierte Daten wie Bilder, Videos oder Log-Dateien geht.

Ein Data Lake hingegen kann riesige Mengen an Daten speichern – egal ob strukturiert, semi-strukturiert oder unstrukturiert. Der Nachteil: Ohne zusätzliche Technologie fehlt eine klare Datenstruktur, was Analysen erschwert.

  • Das Lakehouse kombiniert das Beste aus beiden Welten:
  • Strukturierte und unstrukturierte Daten können gemeinsam verwaltet werden.
  • Datenqualität und Konsistenz werden durch moderne Technologien wie Delta Lake gewährleistet.
  • Echtzeit-Analysen und künstliche Intelligenz (KI) lassen sich direkt auf den gespeicherten Daten anwenden.

SAP Business Data Cloud und die Zukunft der Datenanalyse

SAP geht mit der SAP Business Data Cloud einen Schritt weiter und macht das Lakehouse-Modell für SAP-Kunden nutzbar. Eine zentrale Rolle spielt dabei unter anderem SAP Datasphere.

Ein großer Vorteil ist die direkte Anbindung an Databricks Delta Lake und Apache Spark:

  • Delta Lake stellt sicher, dass Daten auch in einem offenen Data Lake strukturiert, nachvollziehbar und konsistent bleiben.
  • Apache Spark ermöglicht es, riesige Datenmengen schnell zu analysieren – sowohl in Echtzeit als auch für komplexe maschinelle Lernmodelle.
  • Nahtlose Integration: SAP-Kunden können ihre bestehenden Systeme mit modernen Datenplattformen verknüpfen, ohne ihre gesamte Architektur umzustellen.

Fazit

Die Data Warehouse Architektur bleibt das zentrale Fundament datengetriebener Unternehmen – doch sie entwickelt sich weiter. Während klassische Architekturen nach wie vor für stabile, strukturierte Analysen sorgen, bieten moderne Lösungen wie Lakehouse-Modelle die nötige Flexibilität für wachsende Datenmengen und neue Technologien wie Echtzeit-Analysen, künstliche Intelligenz (KI) und Machine Learning.

Mit der SAP Business Data Cloud und SAP Datasphere stellt SAP eine zukunftssichere Plattform bereit, die sowohl klassische Data-Warehouse-Strukturen als auch Data Lakes und KI-getriebene Analysen integriert. Unternehmen profitieren von einer offenen, skalierbaren Architektur, die sich flexibel an neue Anforderungen anpassen lässt, ohne bestehende Systeme komplett ersetzen zu müssen.

Die Zukunft gehört hybriden und vernetzten Architekturen – Unternehmen, die jetzt auf moderne Data Warehouse Konzepte setzen, schaffen die Grundlage für schnellere, intelligentere und wettbewerbsfähigere Entscheidungen.

Kontaktieren Sie uns!

Bei der Auswahl und der Implementierung der passenden SAP BI Tools für Ihren konkreten Anwendungsfall unterstützen wir Sie gerne.

Vereinbaren Sie ein Webmeeting mit unseren Expert:innen oder stellen Sie uns Ihre Frage im Kommentarbereich. 

Martina Ksinsik
Martina Ksinsik
Customer Success Manager

TAGS
Teilen Sie diesen Beitrag
LinkedIn
XING
Facebook
Twitter
Über den Autor
Dušan Dokić
Dušan Dokić
Dušan Dokić ist Berater für Business Intelligence bei der PIKON Deutschland AG. Seine Expertise liegt in den Bereichen Datenanalyse, Informationsmanagement und Künstliche Intelligenz.

Schreibe einen Kommentar

Weitere Blog-Artikel zu diesem Thema