Skip
BI4ALL BI4ALL
  • Expertise
    • Data Strategy & Governance
    • Data Visualization
    • Künstliche Intelligenz
    • Low Code & Automation
    • Modern BI & Big Data
    • R&D Software Engineering
    • PMO, BA & UX/ UI Design
  • Knowledge Centre
    • Blog
    • Sektor
    • Customer Success
    • Tech Talks
  • Wer wir sind
    • Geschichte
    • Board
    • Partners
    • Auszeichnungen
    • Media Centre
  • Karrieren
  • Kontakte
Deutsch
EnglischPortugiesisch
Vorherige Seite:
    Knowledge Center
  • Large Datasets – wichtigste Herausforderungen und beste Praktiken

Large Datasets – wichtigste Herausforderungen und beste Praktiken

Página Anterior: Blog
  • Knowledge Center
  • Blog
  • Fabric: nova plataforma de análise de dados
1 Junho 2023

Fabric: nova plataforma de análise de dados

Placeholder Image Alt
  • Knowledge Centre
  • Large Datasets – wichtigste Herausforderungen und beste Praktiken
6 September 2024

Large Datasets – wichtigste Herausforderungen und beste Praktiken

Large Datasets – wichtigste Herausforderungen und beste Praktiken

Key takeways

Large Datasets sind durch ihre Grösse und Komplexität definiert.

Zu den grössten Herausforderungen gehören Leistungsprobleme und Einschränkungen des Datenmodells.

Die besten Praktiken umfassen u.a. die Verwendung von aggregierten Tabellen und die Vereinfachung des Modells.

Das Datenvolumen, mit dem wir umgehen, ist exponentiell gewachsen. Grosse Datenmengen – Large Datasets -, die früher die Ausnahme waren, sind heute die Regel. Ihr volles Potenzial zu nutzen, kann für Unternehmen ein entscheidender Faktor zwischen Erfolg und Misserfolg sein. Es liegt an ihnen, das beste Werkzeug auszuwählen und die besten Praktiken anzuwenden, um das Beste aus Large Datasets herauszuholen.

In diesem Artikel wird erläutert, was einen Large Dataset charakterisiert, und es werden seine wichtigsten Merkmale sowie die grössten Herausforderungen, die sie mit sich bringen, und die besten Praktiken, die für eine gute Nutzung von Large Datasets implementiert werden sollten, beschrieben.

 

1. Was ist ein Large Dataset?

In Power BI ist ein Large Dataset hauptsächlich durch 2 Aspekte gekennzeichnet:

1.1 Grösse:

Er ist aussergewöhnlich gross, in der Regel übersteigt er Hunderte von Millionen oder sogar Milliarden von Einträgen und übersteigt damit leicht die Grenze von 1 GB, die Sie mit der Power-BI-Pro-Lizenz veröffentlichen können.

1.2 Komplexität:

Er enthält eine grosse Anzahl von Tabellen und Beziehungen zwischen ihnen, die oft komplex sind, mit Metriken und Berechnungen, die ebenfalls komplex sind.

 

Diese beiden Merkmale sowie die Notwendigkeit des sofortigen Zugriffs auf die Daten machen es schwierig oder fast unmöglich, sich an die Kapazitäts- und Leistungsgrenzen von Power BI anzupassen.

 

2. Die wichtigsten Herausforderungen bei Large Datasets

Die Verwendung von Large Datasets kann eine Reihe von Herausforderungen mit sich bringen, wenn sie nicht gut verwaltet werden. Eine schlechte Verwaltung kann Auswirkungen auf die Leistung, die Benutzerfreundlichkeit und sogar die Datenqualität haben. Die wichtigsten Herausforderungen bei der Verwendung von Large Datasets sind:

2.1 Berichtsleistung

Je grösser die Datenmenge ist, desto länger braucht Power BI, um die Daten abzurufen. Dies bedeutet, dass die Verwendung von Large Datasets, oft zu langsamen und nicht reagierenden Berichten führt, was das Benutzererlebnis verschlechtert und in den meisten Fällen zu Frustration führt. Diese Langsamkeit kann sogar dazu führen, dass der Benutzer die Konsultation des Berichts abbricht, wodurch die für die Erstellung des Berichts aufgewendeten Anstrengungen und Ressourcen verschwendet werden.

Darüber hinaus verbrauchen die gestarteten Queries aufgrund ihrer Komplexität viele Ressourcen, nämlich Speicher und CPU, was zu einer Überlastung des Systems führen kann und ebenfalls zu einer schlechten Berichtsleistung beiträgt.

2.2 Einschränkungen des Datenmodells

Wie bereits erwähnt, hat Power BI in der Pro-Lizenz ein Limit von 1 GB Daten im Speicher. Obwohl es andere Lizenzen gibt, die grössere Limits zulassen, wird die Verwaltung von Datensätzen, die grösser als 1 GB sind, was bei Large Datesets, oft der Fall ist, komplexer und erfordert eine sorgfältigere Planung, um einen vollständigen Zugriff zu gewährleisten. Die Kombination von gespeicherten Daten mit dem Modus Direct Query kann bei dieser Einschränkung helfen, da Sie so auf alle Daten zugreifen können, ohne sie im Speicher ablegen zu müssen. Der Modus Direct Query kann sich jedoch auch auf die Leistung des Berichts auswirken, da die Queries direkt beim Öffnen des Berichts an die Quelle gesendet werden, was bedeutet, dass es länger dauert, bis die Ergebnisse zurückgegeben werden. Ausserdem ist die Anzahl der parallel ausgeführten Queries bei der Direct Query begrenzt. Daher werden Berichte mit vielen Visualisierugen noch langsamer.

2.3 Datenqualität und -konsistenz

Die Gewährleistung einer guten Datenqualität und -konsistenz wird komplizierter und komplexer, wenn es sich um einen Large Dataset handelt. Dies liegt daran, dass die Bestätigung der Daten und sogar die Bereinigung der Daten, wie z.B. die Beseitigung doppelter oder leerer Daten und die Überarbeitung von Berechnungen, aufgrund der Menge der zu verarbeitenden Daten mehr Zeit in Anspruch nimmt.

2.4 Data Refresh

Die Aktualisierung von Large Datasets nimmt viel Zeit in Anspruch, da sie eine grosse Menge an Daten enthalten und jede Aktualisierung mehrere Stunden dauern kann. Dies kann zu Verzögerungen bei den Aktualisierungen führen, da sie später abgeschlossen oder sogar blockiert werden können und folglich nicht die neuesten Daten im Bericht angezeigt werden, was für die Leser des Berichts irreführend sein kann.

 

3. Beste Praktiken für den Umgang mit Large Datasets

Um die oben genannten Herausforderungen zu bewältigen und eine gute Beziehung zu Large Datasets zu haben und das Beste aus ihnen herauszuholen, können die folgenden Vorschläge umgesetzt werden:

3.1 Aggregierte Tabellen

Die Visualisierungen in einem Bericht müssen nicht immer die kleinste Granularität der Fakten heranziehen. Meistens ziehen sie eine höhere Granularität heran. Eine Möglichkeit, diese Beobachtungen auszunutzen und die Leistung eines mit einem Large Dataset verbundenen Berichts zu verbessern, ist die Verwendung so genannter aggregierter Tabellen.

Aggregierte Tabellen fassen die Daten der faktischen Tabelle auf einer höheren Aggregationsstufe zusammen, wodurch sie in Bezug auf die Anzahl der Zeilen und die verbrauchten Ressourcen und den Speicherplatz kleiner sind und sich daher in Power BI leichter verarbeiten lassen. Darüber hinaus enthalten aggregierte Tabellen vorberechnete Berechnungen wie SUMs und COUNTs, z. B. Einkaufswert, die häufig in Berichten verwendet werden. Die Tatsache, dass diese Werte bereits in der Tabelle vorberechnet sind, macht ihre Berechnung und anschliessende Darstellung im Bericht schneller und effizienter, da die Berechnungen, die zuvor zum Zeitpunkt der Abfrage durchgeführt wurden, nun bereits in der Tabelle berechnet werden und keine komplexen Operationen zu ihrer Ermittlung erfordern.

Aggregierte Tabellen können in Power BI über Power Query oder direkt in der Datenbank erstellt werden. In Power BI verwenden Sie einfach die Funktion „Aggregationen verwalten“ („Manage Aggregations“ auf Englisch) und definieren die Korrespondenz der Spalten und Aggregationen zwischen der aggregierten Tabelle und der faktischen Tabelle. Beachten Sie, dass sich die faktische Tabelle im Modus Direct Query befinden muss.

Im Gegensatz zu dem, was man denken könnte, müssen die Metriken danach weiterhin die faktische Tabelle im Modus Direct Query konsultieren, d. h. sie müssen weiterhin die faktische Tabelle in ihrer Formel haben und nicht die aggregierte Tabelle. Der Power-BI-Motor ist dafür verantwortlich, zu entscheiden, ob er unter Berücksichtigung der in den Berechnungen und Visualisierungen vorgenommenen Filter die aggregierte Tabelle heranziehen kann, um das Ergebnis zurückzugeben, oder ob er die Tabelle in Direct Query heranziehen muss. Dadurch, dass der Power-BI-Motor diese Entscheidung übernimmt, wird auch die Komplexität der Metriken vermieden, da Sie die Entscheidung zwischen aggregierten und faktischen Tabellen nicht in der Formel der Metrik treffen müssen.

Kurz gesagt, die Verwendung von aggregierten Tabellen ist eine grosse Hilfe bei der Verbesserung der Leistung, da sie die Abfrage der faktischen Tabellen für alle Berechnungen vermeidet. Dieses Detail macht die Konsultation des Berichts für den Benutzer viel angenehmer und schneller.

3.2 Modellierung

Um die Komplexität des Datenmodells so weit wie möglich zu reduzieren, sollte nach Möglichkeit ein Stern- oder Schneeflockenmodell implementiert werden. Diese Arten von Modellen vereinfachen die Beziehungen zwischen den Tabellen und reduzieren die Komplexität der Queries, was zu kürzeren Antwortzeiten führt.

Darüber hinaus sollten die definierten Beziehungen die für das Modell am besten geeignete Kardinalität und Richtung haben, um einen möglichst effizienten Datenabruf zu gewährleisten.

Die Erstellung von berechneten Spalten oder Tabellen sollte ebenfalls vermieden werden. Diese Art von Operationen ist für Power BI umständlich und sollte daher, wann immer möglich, in der Datenbank durchgeführt werden, und es sollten nur die unbedingt erforderlichen Spalten und Tabellen in Power BI übernommen werden, um den Speicherplatz nicht unnötig zu belasten.

3.3 Visualisierungen

In Bezug auf die Visualisierungen gibt es auch einige Vorschläge, die umgesetzt werden können, um das Erlebnis bei der Nutzung des Berichts zu optimieren:

  • Überschreiten Sie nicht mehr als 10 Visualisierungen, einschliesslich Slicers, pro Seite.
  • Maximieren Sie die Anzahl der Visualisierungen, die standardmässig die aggregierte Tabelle abfragen, d.h. eine höhere Granularität haben, und fragen Sie nur eine niedrigere Granularität ab, die die faktische Tabelle bereits in der Direct Query abfragt, falls erforderlich. Dies kann mit Hilfe der DrillDown-Funktionalität gemacht werden.
  • Vermeiden Sie die Verwendung benutzerdefinierter Visualisierungen. Verwenden Sie vorrangig die nativen Visualisierungen von Power BI.
  • Verwenden Sie Slicers und Filter, um die Daten im Bericht vorzufiltern und so die Menge der auf einmal verarbeiteten Daten zu reduzieren.

 

Large Datasets sind eine Realität, und wir verfügen bereits über Funktionalitäten wie aggregierte Tabellen, die es uns ermöglichen, diese neue Herausforderung zu meistern und das Beste daraus zu machen.

Teilen Sie

Vorgeschlagener Inhalt

Analytische Lösung in Fabric zur Sicherstellung von Skalierbarkeit, einer einzigen verlässlichen Datenquelle und Autonomie Use Cases

Analytische Lösung in Fabric zur Sicherstellung von Skalierbarkeit, einer einzigen verlässlichen Datenquelle und Autonomie

Die neue Analysearchitektur auf Basis von Microsoft Fabric gewährleistete Datenintegration, Zuverlässigkeit und Skalierbarkeit und ermöglichte analytische Autonomie sowie Zukunftssicherheit.

Applications of Multimodal Models | BI4ALL Talks Tech Talks

Applications of Multimodal Models | BI4ALL Talks

ANWENDUNGSFALL – Analytische Transformation in der Cloud: Leistung, Skalierbarkeit und Sicherheit im großen Maßstab Use Cases

ANWENDUNGSFALL – Analytische Transformation in der Cloud: Leistung, Skalierbarkeit und Sicherheit im großen Maßstab

Ein Finanzinstitut hat auf eine von BI4ALL entwickelte Cloud-basierte Analyselösung umgestellt, die sichere, skalierbare und leistungsstarke Einblicke für kommunale und Bankpartner ermöglicht.

Scaling MS Purview with Effective Data Strategy & Governance | BI4ALL Talks Tech Talks

Scaling MS Purview with Effective Data Strategy & Governance | BI4ALL Talks

Webinar „Unlocking Data Excellence: BI4ALL and Collibra in Action“ Tech Talks

Webinar „Unlocking Data Excellence: BI4ALL and Collibra in Action“

Webinar „Stuck in Chaos? AI Agents Could Be Your Secret Weapon“ Tech Talks

Webinar „Stuck in Chaos? AI Agents Could Be Your Secret Weapon“

video title

Fangen wir an

Haben Sie eine Frage? Möchten Sie ein neues Projekt starten?
Kontaktieren Sie uns

Menu

  • Expertise
  • Knowledge Centre
  • Wer wir sind
  • Karrieren
  • Kontakte

Newsletter

Mit Innovationen auf dem Laufenden bleiben und den Erfolg vorantreiben
Newsletter

2025 Alle Rechte Vorbehalten

Privatsphäre und Datenschutz Politik der Informationen
URS - ISO 27001
URS - ISO 27701
Cookie-Einstellungen

BI4ALL BI4ALL kann Cookies verwenden, um Ihre Anmeldedaten zu speichern, Statistiken zu sammeln, um die Funktionalität der Website zu optimieren und um Marketingaktionen auf der Grundlage Ihrer Interessen durchzuführen.
Sie können die verwendeten Cookies in den .

Cookie-Optionen

These cookies are essential to provide services available on our website and to enable you to use certain features on our website. Without these cookies, we cannot provide certain services on our website.

These cookies are used to provide a more personalised experience on our website and to remember the choices you make when using our website.

These cookies are used to recognise visitors when they return to our website. This enables us to personalise the content of the website for you, greet you by name and remember your preferences (for example, your choice of language or region).

These cookies are used to protect the security of our website and your data. This includes cookies that are used to enable you to log into secure areas of our website.

These cookies are used to collect information to analyse traffic on our website and understand how visitors are using our website. For example, these cookies can measure factors such as time spent on the website or pages visited, which will allow us to understand how we can improve our website for users. The information collected through these measurement and performance cookies does not identify any individual visitor.

These cookies are used to deliver advertisements that are more relevant to you and your interests. They are also used to limit the number of times you see an advertisement and to help measure the effectiveness of an advertising campaign. They may be placed by us or by third parties with our permission. They remember that you have visited a website and this information is shared with other organisations, such as advertisers.

Política de Privacidade