Fivetran MAR Optimierung
Viele potenzielle Komponenten eines modernen Datastacks haben eine verbrauchsbasierte Preisgestaltung. Da die meisten dieser Tools kostenlose Testversionen anbieten, sollten Sie sicherstellen, dass Sie die Testversion optimal nutzen und die Kosten Ihrer zukünftigen Infrastruktur ermitteln. Sobald Sie jedoch ein eigenes laufendes Setup haben, gibt es Möglichkeiten, mit denen Sie mehrere hundert Euro oder mehr sparen können. Diese Einsparungen sind möglich, indem Sie optimieren, welche Daten Sie verbrauchen und wie Sie die gesamte Infrastruktur einrichten. In diesem Fall wollen wir fivetran in Verbindung mit einem Snowflake Warehouse betrachten.
Das Preismodell von Fivetran: Verbrauchsbasiert
Die Fivetran-Preise basieren auf dem tatsächlichen monatlichen Datenverbrauch des Benutzers. Indem Sie diese Menge an Datenverbrauch kontrollieren oder optimieren, können Sie kurz- und langfristig Kosten einsparen und die Effizient Ihres Set-ups steigern. Sie sollten sich immer fragen, welche Daten wirklich benötigt werden und welche nicht. Da Sie neben den direkten Kosten für Fivetran selbst auch für Rechenressourcen (in diesem Fall Snowflake Warehouses) zahlen, können Sie möglicherweise auch die mit Fivetran verbundenen Sekundärkosten reduzieren.
Wie wird der Verbrauch gemessen?
Im Fall von fivetran basiert die Preisgestaltung auf einer Metrik namens MAR (monatlich aktive Zeilen). Es mag zunächst schwierig sein, dieses Konzept zu verstehen, aber probieren wir es doch mal aus (eine gute Ressource ist natürlich auch Fivetran’s website):
-
Sie haben eine Tabelle mit einer Million Zeilen. Wenn Sie Ihren Connector vollständig mit einer historischen Synchronisierung eingerichtet haben wird diese Tabelle nun synchronisiert,
-
Diese Tabelle wächst täglich um 10.000 Zeilen. Alle neuen Zeilen werden als MAR gezählt, ebenso wie alle neu hinzugefügten Zeilen, die synchronisiert werden.
-
In der Tabelle gibt es außerdem einige Zeilen, die im Laufe des Monats aktualisiert werden. Jede Zeile, die einmal oder mehrmals im Monat aktualisiert wird, wird nur einmal als MAR gezählt. Eine Zeile, die am 2. eines Monats erstellt wurde und innerhalb desselben Monats fünfmal aktualisiert wird, wird für diesen Monat als eine MAR gezählt.
-
Es gibt einige nennenswerte Ausnahmen, unter anderem Dateikonnektoren (Dateiordner, SFTP/FTP usw.). Sie zahlen für die maximale Anzahl an Zeilen in jeder Datei, die fivetran in einem Monat synchronisiert, und es wird Ihnen jeden Monat die gesamte Tabelle in Rechnung gestellt. Die Verwendung vieler Dateien in Ihrem Konto als Quellen kann die Kosten in die Höhe treiben (siehe https://fivetran.com/docs/pricing#fileconnectors)
-
Einige spezifische Konnektoren folgen Synchronisierungsstrategien, durch die regelmäßig eine gesamte Tabelle synchronisiert wird. Das ist dann der Fall, wenn fivetran über keinen Tracking-Mechanismus verfügt, durch die verfolgt wird, welche Zeilen neu sind oder sich geändert haben. Eine Übersicht über Randfälle ist hier zusammengefasst (https://fivetran.com/docs/pricing#connectorspecificfunctionaldifferences)
Wenn Sie fivetran verwenden, wissen Sie meistens, wie Sie Ihre MAR tracken. Wenn Sie Ihr Konto öffnen und über die richtigen Berechtigungen verfügen, können Sie zwischen den Ebenen „Pro Connector“ und „Pro Tabelle“ wechseln, indem Sie auf „Kontoeinstellungen“ > und “Billing and Usage” klicken und das “Usage” Tab wählen. Eine weitere Möglichkeit besteht darin, den Fivetran-Log-Connector zu verwenden, um Informationen zu allen Connectors in Ihrem Data Warehouse oder Data Lake zu speichern und dann ein benutzerdefiniertes Reporting zu erstellen. Wir unterstützen unsere Kunden regelmäßig bei der Erstellung eines Kostenreportings für ihre gesamte Infrastruktur.
Optimierung von MAR
Mehrere Ansätze können zu einer kosteneffizienteren Einrichtung mit fivetran führen:
-
Auf der Connector-Ebene sollten Sie verstehen, welche Tabellen innerhalb eines Connectors die meisten MAR verursachen und ob sie tatsächlich nachgelagert für die Berichterstellung verwendet werden. Ein Weg mit denen regelmäßig viele MAR eingespart werden können, ist das Abschalten der stündlichen Updates des Google Ads-Connectors. Die meisten Unternehmen analysieren Ihre Daten tatsächlich nur auf täglicher Ebene. Gehen Sie Ihre Statistiken Konnektor für Konnektor durch und nehmen Sie sich die Zeit, mit den tatsächlichen Endnutzern zu sprechen, um herauszufinden ob die die Daten tatsächlich genutzt werden. Wenn Sie Tools wie DBT oder Coalesce verwenden, können Sie anhand der Datenherkunftsfunktionen möglicherweise erkennen, ob die entsprechenden Tabellen überhaupt in Ihrer Datenmodellierung implementiert sind.
-
Die Zahl der MAR hängt nicht davon ab, ob eine Zeile in den Quellen tatsächlich aktualisiert wird, sondern vielmehr davon, ob fivetran eine Änderung sieht oder nicht. Ein Beispiel: Einer unserer Kunden verfügte über eine Tabelle, die alle Produktinformationen aus dem ERP-System enthielt. Diese Tabelle wurde nachgelagert in mehreren Instanzen benötigt, um Produktinformationen zusammenzuführen. Allerdings gab es in dieser Tabelle eine Spalte, die alle 5 Minuten aktualisiert wurde …