Was ist ein Data Mart?

Eine Teilmenge des Data Warehouse

Der Data Mart ist ein thematisch ausgerichteter Teil des logischen Data Warehouse-Modells logischen Data-Warehouse-Modells, der einer kleinen Gruppe von Anwendern dient. Oft wird nur ein Teil der Daten aus den vollständigen Tabellen im Data Warehouse benötigt. Ein Mart kann beispielsweise nur über Verkaufstransaktionen, Produkte und Bestandsaufzeichnungen verfügen. Die meisten haben statt 4.000 nur 5 bis 20 Tabellen.

Faktentabellen im Data Mart

Die Anzahl der Tabellen in einem Data Mart hat keine Relevanz für die Größe der Datenbank. Die Haupttabellen – sogenannte Faktentabellen – können beispielsweise für ein Telekommunikationsunternehmen 100 Terabyte an Anrufdetails enthalten. Der Data Mart selbst kann riesig sein, ist aber dennoch nur eine begrenzte Auswahl aller im Data Warehouse verfügbaren Daten.

Data Mart-Lösungen werden häufig denormalisiert und enthalten lediglich Zusammenfassungen von Daten, indem sie sortiert und zu einer Ergebnistabelle aggregiert werden. Dadurch werden in der Regel Detaildaten verworfen. Einige werden wöchentlich oder monatlich vollständig neu geladen. Es ist relativ einfach, alle Daten zu löschen und zu aktualisieren, sodass Berichte nur die letzten 30 Tage der Transaktionen anzeigen.

Sternschema
Data Marts und das Sternschema sind untrennbar miteinander verknüpft. Man stelle sich Datenzeilen und -spalten in fünf Tabellen vor. Vier der Tabellen sind über Schlüsselfelder miteinander verbunden, die mit der größten Tabelle, der sogenannten Faktentabelle, übereinstimmen. Stellen Sie sich vor, die Faktentabelle besteht aus 50 Millionen Datensätzen. Das passt nicht wirklich in eine Tabelle, also werden diese Datensätze in Data-Mart-Tabellen gespeichert. Die meisten haben 5 bis 10 Tabellen in diesem Sternschema-Design, und die kleinen Tabellen auf den Sternarmen werden Dimensionstabellen genannt.

Schneeflockenschema
Dimensionstabellen sind kleine Tabellen mit wichtigen Informationen. In der Faktentabelle wird der Großteil der Daten gespeichert; es kann sich dabei um Milliarden von Datensätzen handeln und die Faktentabelle kann mit der Kundentabelle verknüpft werden, um die tatsächlichen Kundennamen- und Adressfelder zu erhalten. Eine Variante, das Schneeflockenschema, weist neben mehreren durch Schlüsselfelder verknüpften Faktentabellen noch zusätzliche Merkmale auf. Jede Faktentabelle hat nur vier oder fünf Dimensionstabellen; ein Diagramm der Tabellen und Beziehungen ähnelt einer Schneeflocke – ist aber immer noch ein Data Mart.

Wie unterscheiden sich Data Marts und Warehouses?

Bei der Unterscheidung zwischen Data Marts und Data Warehouses geht es um Themenbereiche und Integration, die Abtrennung richtet sich nach der Schemakomplexität, nicht nach der Datenbankgröße. Deshalb kann man mit einem Data Warehouse tausendmal komplexere Fragen beantworten als mit einem Data Mart, denn das Warehouse hat alle Daten.

Ein Data Warehouse besteht aus vielen „Puzzleteilen“; alle integrierten Tabellen sind in Themenbereiche gruppiert. Das Data Warehouse muss nicht unbedingt riesig sein; es kann auch nur fünf Terabyte Speicherplatz beanspruchen. Es könnte aber auch Hunderte von Terabyte an Datensätzen enthalten. Eine Alternative besteht darin, drei riesige Tabellen in einem Data Mart zu speichern.

Laden von Daten
Es mangelt nicht an Tools zur Datenintegration oder an Datenbanken, um die Daten zu speichern, und ebenso wenig an Tools zur Datenanalyse. Das Verschieben kleiner Datenmengen in Business-Intelligence-Tools (BI-Tools) für Berichte oder Dashboards ist nicht sehr aufwendig. Die wirklichen Kosten entstehen durch das Verschieben und Umwandeln von Daten.

Verschieben von Daten
Der Schritt der Datenintegration ist in Bezug auf Arbeit und Rechenaufwand sehr intensiv, aber die Alternative dazu wäre Geschäftsanwendern fehlerhafte, unvollständige oder ungenaue Daten zu geben – und sie auf die Tabellen zu verweisen. Aus diesem Grund sind Data Warehouse-Daten wertvoll und die Wucherung von Data Marts riskant.

Teradata Data Mart Solutions

Teradata Vantage ist die Plattform für umfassende Datenintelligenz. Seine Cloud-freundliche Architektur wurde entwickelt, um 100 % der Unternehmensdaten unabhängig von ihrem Speicherort zu nutzen. Das Teradata Service-Team weiß genau, wie man Unternehmen hilft, alle benötigten Antworten aus ihren Daten zu ziehen.

Cloud Analytics - AWS Amazon Web Services

Verwenden Sie AWS-Infrastruktur mit Teradata Vantage

Cloud Analytics - Microsoft Azure Microsoft Azure

Kombinieren Sie Azure-Ressourcen mit Teradata Vantage

Cloud Analytics - Google Cloud Google Cloud

Nutzen Sie Google Cloud mit Teradata Vantage

Überwinden Sie unnötige Engpässe und Komplexität, bringen Sie Analytics in die Cloud