6 September 2024
Key takeways
Das Datenvolumen, mit dem wir umgehen, ist exponentiell gewachsen. Grosse Datenmengen – Large Datasets -, die früher die Ausnahme waren, sind heute die Regel. Ihr volles Potenzial zu nutzen, kann für Unternehmen ein entscheidender Faktor zwischen Erfolg und Misserfolg sein. Es liegt an ihnen, das beste Werkzeug auszuwählen und die besten Praktiken anzuwenden, um das Beste aus Large Datasets herauszuholen.
In diesem Artikel wird erläutert, was einen Large Dataset charakterisiert, und es werden seine wichtigsten Merkmale sowie die grössten Herausforderungen, die sie mit sich bringen, und die besten Praktiken, die für eine gute Nutzung von Large Datasets implementiert werden sollten, beschrieben.
1. Was ist ein Large Dataset?
In Power BI ist ein Large Dataset hauptsächlich durch 2 Aspekte gekennzeichnet:
1.1 Grösse:
Er ist aussergewöhnlich gross, in der Regel übersteigt er Hunderte von Millionen oder sogar Milliarden von Einträgen und übersteigt damit leicht die Grenze von 1 GB, die Sie mit der Power-BI-Pro-Lizenz veröffentlichen können.
1.2 Komplexität:
Er enthält eine grosse Anzahl von Tabellen und Beziehungen zwischen ihnen, die oft komplex sind, mit Metriken und Berechnungen, die ebenfalls komplex sind.
Diese beiden Merkmale sowie die Notwendigkeit des sofortigen Zugriffs auf die Daten machen es schwierig oder fast unmöglich, sich an die Kapazitäts- und Leistungsgrenzen von Power BI anzupassen.
2. Die wichtigsten Herausforderungen bei Large Datasets
Die Verwendung von Large Datasets kann eine Reihe von Herausforderungen mit sich bringen, wenn sie nicht gut verwaltet werden. Eine schlechte Verwaltung kann Auswirkungen auf die Leistung, die Benutzerfreundlichkeit und sogar die Datenqualität haben. Die wichtigsten Herausforderungen bei der Verwendung von Large Datasets sind:
2.1 Berichtsleistung
Je grösser die Datenmenge ist, desto länger braucht Power BI, um die Daten abzurufen. Dies bedeutet, dass die Verwendung von Large Datasets, oft zu langsamen und nicht reagierenden Berichten führt, was das Benutzererlebnis verschlechtert und in den meisten Fällen zu Frustration führt. Diese Langsamkeit kann sogar dazu führen, dass der Benutzer die Konsultation des Berichts abbricht, wodurch die für die Erstellung des Berichts aufgewendeten Anstrengungen und Ressourcen verschwendet werden.
Darüber hinaus verbrauchen die gestarteten Queries aufgrund ihrer Komplexität viele Ressourcen, nämlich Speicher und CPU, was zu einer Überlastung des Systems führen kann und ebenfalls zu einer schlechten Berichtsleistung beiträgt.
2.2 Einschränkungen des Datenmodells
Wie bereits erwähnt, hat Power BI in der Pro-Lizenz ein Limit von 1 GB Daten im Speicher. Obwohl es andere Lizenzen gibt, die grössere Limits zulassen, wird die Verwaltung von Datensätzen, die grösser als 1 GB sind, was bei Large Datesets, oft der Fall ist, komplexer und erfordert eine sorgfältigere Planung, um einen vollständigen Zugriff zu gewährleisten. Die Kombination von gespeicherten Daten mit dem Modus Direct Query kann bei dieser Einschränkung helfen, da Sie so auf alle Daten zugreifen können, ohne sie im Speicher ablegen zu müssen. Der Modus Direct Query kann sich jedoch auch auf die Leistung des Berichts auswirken, da die Queries direkt beim Öffnen des Berichts an die Quelle gesendet werden, was bedeutet, dass es länger dauert, bis die Ergebnisse zurückgegeben werden. Ausserdem ist die Anzahl der parallel ausgeführten Queries bei der Direct Query begrenzt. Daher werden Berichte mit vielen Visualisierugen noch langsamer.
2.3 Datenqualität und -konsistenz
Die Gewährleistung einer guten Datenqualität und -konsistenz wird komplizierter und komplexer, wenn es sich um einen Large Dataset handelt. Dies liegt daran, dass die Bestätigung der Daten und sogar die Bereinigung der Daten, wie z.B. die Beseitigung doppelter oder leerer Daten und die Überarbeitung von Berechnungen, aufgrund der Menge der zu verarbeitenden Daten mehr Zeit in Anspruch nimmt.
2.4 Data Refresh
Die Aktualisierung von Large Datasets nimmt viel Zeit in Anspruch, da sie eine grosse Menge an Daten enthalten und jede Aktualisierung mehrere Stunden dauern kann. Dies kann zu Verzögerungen bei den Aktualisierungen führen, da sie später abgeschlossen oder sogar blockiert werden können und folglich nicht die neuesten Daten im Bericht angezeigt werden, was für die Leser des Berichts irreführend sein kann.
3. Beste Praktiken für den Umgang mit Large Datasets
Um die oben genannten Herausforderungen zu bewältigen und eine gute Beziehung zu Large Datasets zu haben und das Beste aus ihnen herauszuholen, können die folgenden Vorschläge umgesetzt werden:
3.1 Aggregierte Tabellen
Die Visualisierungen in einem Bericht müssen nicht immer die kleinste Granularität der Fakten heranziehen. Meistens ziehen sie eine höhere Granularität heran. Eine Möglichkeit, diese Beobachtungen auszunutzen und die Leistung eines mit einem Large Dataset verbundenen Berichts zu verbessern, ist die Verwendung so genannter aggregierter Tabellen.
Aggregierte Tabellen fassen die Daten der faktischen Tabelle auf einer höheren Aggregationsstufe zusammen, wodurch sie in Bezug auf die Anzahl der Zeilen und die verbrauchten Ressourcen und den Speicherplatz kleiner sind und sich daher in Power BI leichter verarbeiten lassen. Darüber hinaus enthalten aggregierte Tabellen vorberechnete Berechnungen wie SUMs und COUNTs, z. B. Einkaufswert, die häufig in Berichten verwendet werden. Die Tatsache, dass diese Werte bereits in der Tabelle vorberechnet sind, macht ihre Berechnung und anschliessende Darstellung im Bericht schneller und effizienter, da die Berechnungen, die zuvor zum Zeitpunkt der Abfrage durchgeführt wurden, nun bereits in der Tabelle berechnet werden und keine komplexen Operationen zu ihrer Ermittlung erfordern.
Aggregierte Tabellen können in Power BI über Power Query oder direkt in der Datenbank erstellt werden. In Power BI verwenden Sie einfach die Funktion „Aggregationen verwalten“ („Manage Aggregations“ auf Englisch) und definieren die Korrespondenz der Spalten und Aggregationen zwischen der aggregierten Tabelle und der faktischen Tabelle. Beachten Sie, dass sich die faktische Tabelle im Modus Direct Query befinden muss.
Im Gegensatz zu dem, was man denken könnte, müssen die Metriken danach weiterhin die faktische Tabelle im Modus Direct Query konsultieren, d. h. sie müssen weiterhin die faktische Tabelle in ihrer Formel haben und nicht die aggregierte Tabelle. Der Power-BI-Motor ist dafür verantwortlich, zu entscheiden, ob er unter Berücksichtigung der in den Berechnungen und Visualisierungen vorgenommenen Filter die aggregierte Tabelle heranziehen kann, um das Ergebnis zurückzugeben, oder ob er die Tabelle in Direct Query heranziehen muss. Dadurch, dass der Power-BI-Motor diese Entscheidung übernimmt, wird auch die Komplexität der Metriken vermieden, da Sie die Entscheidung zwischen aggregierten und faktischen Tabellen nicht in der Formel der Metrik treffen müssen.
Kurz gesagt, die Verwendung von aggregierten Tabellen ist eine grosse Hilfe bei der Verbesserung der Leistung, da sie die Abfrage der faktischen Tabellen für alle Berechnungen vermeidet. Dieses Detail macht die Konsultation des Berichts für den Benutzer viel angenehmer und schneller.
3.2 Modellierung
Um die Komplexität des Datenmodells so weit wie möglich zu reduzieren, sollte nach Möglichkeit ein Stern- oder Schneeflockenmodell implementiert werden. Diese Arten von Modellen vereinfachen die Beziehungen zwischen den Tabellen und reduzieren die Komplexität der Queries, was zu kürzeren Antwortzeiten führt.
Darüber hinaus sollten die definierten Beziehungen die für das Modell am besten geeignete Kardinalität und Richtung haben, um einen möglichst effizienten Datenabruf zu gewährleisten.
Die Erstellung von berechneten Spalten oder Tabellen sollte ebenfalls vermieden werden. Diese Art von Operationen ist für Power BI umständlich und sollte daher, wann immer möglich, in der Datenbank durchgeführt werden, und es sollten nur die unbedingt erforderlichen Spalten und Tabellen in Power BI übernommen werden, um den Speicherplatz nicht unnötig zu belasten.
3.3 Visualisierungen
In Bezug auf die Visualisierungen gibt es auch einige Vorschläge, die umgesetzt werden können, um das Erlebnis bei der Nutzung des Berichts zu optimieren:
- Überschreiten Sie nicht mehr als 10 Visualisierungen, einschliesslich Slicers, pro Seite.
- Maximieren Sie die Anzahl der Visualisierungen, die standardmässig die aggregierte Tabelle abfragen, d.h. eine höhere Granularität haben, und fragen Sie nur eine niedrigere Granularität ab, die die faktische Tabelle bereits in der Direct Query abfragt, falls erforderlich. Dies kann mit Hilfe der DrillDown-Funktionalität gemacht werden.
- Vermeiden Sie die Verwendung benutzerdefinierter Visualisierungen. Verwenden Sie vorrangig die nativen Visualisierungen von Power BI.
- Verwenden Sie Slicers und Filter, um die Daten im Bericht vorzufiltern und so die Menge der auf einmal verarbeiteten Daten zu reduzieren.
Large Datasets sind eine Realität, und wir verfügen bereits über Funktionalitäten wie aggregierte Tabellen, die es uns ermöglichen, diese neue Herausforderung zu meistern und das Beste daraus zu machen.