Die Grenzen von Hadoop.
(Hinweis: Dieser Artikel stammt aus dem Jahr 2019, ist aber als Lektion für komplexe Infrastrukturen weiterhin relevant.)
Vor fünf Jahren galt Hadoop als der Heilige Gral. "Big Data" war das Schlagwort, und wer keine Hadoop-Cluster im Keller stehen hatte, galt als rückständig. Doch die Realität hat uns eingeholt.
Komplexität frisst Innovation
Das Versprechen von Hadoop war günstige Skalierung auf Standard-Hardware ("Commodity Hardware"). In der Praxis verbrachten unsere Teams jedoch 80% ihrer Zeit damit, ZooKeeper zu debuggen, NameNodes neu zu starten und Java Heap Space Fehler zu beheben. Nur 20% der Zeit flossen in echte Datenanalyse.
Die Zukunft liegt im Object Storage
Wir sehen einen klaren Trend weg von HDFS und hin zu S3 (oder Azure Blob Storage). Speicher und Compute werden entkoppelt. Technologien wie Spark oder Presto können direkt auf S3 zugreifen – ohne den Overhead eines Hadoop-Clusters verwalten zu müssen.
Die Ära der "On-Premise Big Data Zoos" neigt sich dem Ende zu. Managed Services in der Cloud sind nicht nur einfacher, sondern – wenn man die Personalkosten einrechnet – oft auch günstiger.