3rd Oct 2024 9 Leseminuten Die 5 wichtigsten Gründe, warum PostgreSQL für die Datenanalyse (und Datenanalysten!) geeignet ist Alexandre Bruffa PostgreSQL Datenanalyse Inhaltsverzeichnis PostgreSQL für Datenanalysten: Eine kluge Wahl 1. die Verlässlichkeit und Stabilität 2. erweiterte Funktionen 3. die Gemeinschaft und das Ökosystem 4. Leistung und Skalierbarkeit 5. sicherheit und Compliance Erfahren Sie mehr über PostgreSQL für die Datenanalyse Warum lieben Analysten PostgreSQL für die Datenanalyse? Erfahren Sie, warum dieses Datenbankmanagementsystem sowohl bei Datenbankexperten als auch bei Datenwissenschaftlern so beliebt ist! Wenn Sie mit Daten arbeiten, wissen Sie, dass die Datenanalyse eine effiziente Speicherung, Verwaltung und Abfrage von großen Datenmengen erfordert. Daher verwenden Datenanalysten bevorzugt relationale Datenbanken, die für ihre Robustheit, Effizienz und Stabilität bekannt sind. Relationale Datenbanken arbeiten mit einem Datenbankmanagementsystem (DBMS), das die Erstellung, Verwaltung und Manipulation von relationalen Datenbanken ermöglicht. DBMS sorgen auch dafür, dass die Daten organisiert, sicher und bei Bedarf zugänglich sind. Weitere Einzelheiten hierzu finden Sie in Luke Handes großartigem Artikel What Is an SQL Database? Zu den beliebtesten DBMS gehören heute u. a. MySQL, Microsoft SQL Server, Oracle, SQLite und PostgreSQL. Im Zusammenhang mit der Datenanalyse ist PostgreSQL eine beliebte Wahl unter Datenanalysten. In diesem Artikel werde ich aufzeigen, warum viele Datenexperten PostgreSQL für die Datenanalyse wählen. Wenn Sie daran interessiert sind, PostgreSQL zu lernen, schauen Sie sich unseren umfassenden SQL von A bis Z in PostgreSQL Learning Track an. Mit 9 Kursen und 117 Stunden Inhalt sind Sie auf dem besten Weg, ein PostgreSQL-Meister zu werden - auch wenn Sie noch nie programmiert haben. Schließen Sie sich den anderen 33.977 eingeschriebenen Teilnehmern an und beginnen Sie Ihre ersten Schritte beim Erlernen von PostgreSQL für Datenanalysten! PostgreSQL für Datenanalysten: Eine kluge Wahl Es gibt 5 Hauptgründe, warum Datenanalysten PostgreSQL bevorzugen: 1. die Verlässlichkeit und Stabilität Was wäre, wenn einige Transaktionen in einer Datenbank ohne Vorwarnung fehlschlagen würden? Was wäre, wenn wir von Datenbanken nicht erwarten könnten, dass sie jedes Bit an Daten, das sie erhalten, zuverlässig aufzeichnen? Für die meisten Unternehmen wäre dies ein kritisches Problem. Stellen Sie sich vor, Sie betreiben eine E-Commerce-Website. Ein Kunde tätigt einen Kauf, die Bank des Kunden genehmigt die Transaktion, aber Ihr Kernsystem speichert nur einen Teil der Zahlung. Noch schlimmer: Stellen Sie sich dasselbe Problem bei einer Bankanwendung vor, d. h. ein Kunde tätigt eine Einzahlung und Ihre Datenbank speichert sie nicht. Die Folgen für den Kunden und die Bank könnten enorm sein! Da Datenintegrität und Zuverlässigkeit von entscheidender Bedeutung sind, sind die meisten relationalen Datenbanken so konzipiert, dass sie die ACID-Konformität unterstützen. ACID bedeutet, dass die Informationen: Atomar - Jede Transaktion ist eine einzige Einheit, die entweder vollständig erfolgreich ist oder überhaupt nicht ausgeführt wird. Dadurch wird sichergestellt, dass keine Befehle teilweise verarbeitet werden und die Datenintegrität im Falle eines System- oder Stromausfalls erhalten bleibt. Konsistent - Die in einer Datenbank gespeicherten Daten müssen bestimmten definierten Regeln entsprechen und in einem stabilen Zustand gespeichert werden. Isoliert - Wenn die Datenbank mehrere Transaktionen gleichzeitig abwickelt (was häufig der Fall ist), wirkt sich jede Transaktion nur auf die direkt an der Transaktion beteiligten Datensätze aus. Mehrere Transaktionen können gleichzeitig und unabhängig voneinander durchgeführt werden. Dauerhaft - Die Daten in einer Datenbank sind stabil; sie verändern sich im Laufe der Zeit nicht (es sei denn, der Datenbankbetreiber nimmt die Änderung vor). Diese Eigenschaften tragen dazu bei, eine zuverlässige Transaktionsverarbeitung in einem Datenbankmanagementsystem (DBMS) zu gewährleisten. Im Zusammenhang mit der Datenanalyse ist PostgreSQL ein beliebtes relationales DBMS, da es vollständig ACID-konform ist; es stellt sicher, dass Transaktionen auch im Falle von Systemausfällen zuverlässig verarbeitet werden. 2. erweiterte Funktionen Wussten Sie, dass die meisten relationalen DBMS die Erstellung von benutzerdefinierten Datentypen ermöglichen? Zuerst deklarieren Sie den neuen Typ und dann können Sie ihn wie einen Standarddatentyp verwenden. PostgreSQL ist in hohem Maße erweiterbar; es erlaubt den Benutzern, zahlreiche benutzerdefinierte Datentypen zu erstellen. Dazu gehören u.a. zusammengesetzte Typen, Bereichstypen und Aufzählungstypen. Stellen Sie sich vor, Sie wollen RGB-Farben (Rot, Grün, Blau) in einer PostgreSQL-Datenbank speichern. Zuerst deklarieren wir den neuen benutzerdefinierten Typ; dann verwenden wir ihn, wenn wir die Farbtabelle erstellen. Danach können wir jedes Mal, wenn wir eine neue Zeile zu dieser Tabelle (oder zu einer anderen Tabelle in derselben Datenbank) hinzufügen, neue Werte einfügen, die diesen speziellen Datentyp verwenden. CREATE TYPE rgb_color AS ( red INT, green INT, blue INT ); CREATE TABLE colors ( name TEXT, value rgb_color ); INSERT INTO colors (name, value) VALUES (French Flag Blue', ROW(0, 35, 149)); So einfach ist das! Übrigens, wenn Sie ähnliche Abfragen sehen möchten, lesen Sie den Artikel Top 7 Fortgeschrittenes SQL Queries for Data Analysis von Nicole Darnley. Auf die gleiche Weise erlaubt PostgreSQL benutzerdefinierte Funktionen (UDFs). Diese sind wie normale Funktionen, aber Sie können Ihre eigenen erstellen, indem Sie einen ähnlichen Prozess wie bei benutzerdefinierten Datentypen verwenden. Je nachdem, wie Sie sie erstellen, ist diese Funktion im aktuellen Schema oder in allen Schemata verfügbar. Um Ihre eigene Funktion zu erstellen, definieren Sie zunächst die benutzerdefinierte Funktion und ihre Parameter. Um Ihre benutzerdefinierte Funktion zu verwenden, rufen Sie sie einfach in einer SELECT -Klausel auf. Stellen Sie sich vor, Sie benötigen eine benutzerdefinierte Funktion, die einen Gesamtpreis einschließlich eines Steuersatzes errechnet. So könnten Sie es mit PL/pgSQL (der prozeduralen Sprache von PostgreSQL) machen: CREATE OR REPLACE FUNCTION calculate_total_price(price NUMERIC, tax_rate NUMERIC) RETURNS NUMERIC AS $$ BEGIN RETURN price + (price * tax_rate); END; $$ LANGUAGE plpgsql; SELECT calculate_total_price(100, 0.08) AS total; Fantastisch, nicht wahr? Lassen Sie uns mit benutzerdefinierten Operatoren weitermachen! Wenn Sie reine Mathematik oder Algebra studiert haben, wissen Sie vielleicht, dass die üblichen arithmetischen Operatoren, die wir im täglichen Leben verwenden (Addition, Subtraktion, Multiplikation und Division), nur die Spitze des Eisbergs sind! Es gibt noch viele andere mathematische Operatoren - Sie können sogar eigene Operatoren definieren. Eine ähnliche Funktion bieten die meisten relationalen DBMS: Sie ermöglichen es den Benutzern, benutzerdefinierte Operatoren für vorhandene oder benutzerdefinierte Datentypen zu erstellen. Diese Funktion ist besonders nützlich, wenn Sie mit komplexen Datentypen arbeiten oder wenn Sie spezielle Operationen benötigen, die nicht durch Standardoperatoren abgedeckt sind. PostgreSQL ist eines der flexibelsten und am besten erweiterbaren relationalen DBMS, wenn es um benutzerdefinierte Operatoren geht. Lassen Sie uns das folgende Beispiel versuchen. Wir wollen einen neuen Operator '#>' erstellen, der die Längen zweier Strings vergleicht. Zunächst deklarieren wir eine neue benutzerdefinierte Funktion und ihren Operator: –-Create the function CREATE OR REPLACE FUNCTION length_greater_than(text, text) RETURNS BOOLEAN AS $$ BEGIN RETURN length($1) > length($2); END; $$ LANGUAGE plpgsql; –-Create a custom operator for the function CREATE OPERATOR #> ( LEFTARG = text, RIGHTARG = text, PROCEDURE = length_greater_than ); Nun können wir den neuen Operator in einer Abfrage verwenden: SELECT 'learnpython' #> 'learnsql' AS result; Sind Sie immer noch hungrig nach mehr PostgreSQL-Abfragen? Fordern Sie sich selbst heraus mit den Abfragen in Gustavo du Mortier's 19 PostgreSQL-Praxis Übungen mit detaillierten Lösungen! 3. die Gemeinschaft und das Ökosystem PostgreSQL hat eine der stärksten und aktivsten Communities unter allen DBMS. Die hochmotivierten Mitglieder der PostgreSQL-Community sind sehr produktiv: Sie liefern tonnenweise hochwertige Inhalte (Tutorials, Artikel, Kurse, etc.). Überall auf der Welt gibt es UGs (User Groups), die PostgreSQL-Meetups, Workshops und Konferenzen organisieren. Die größten Veranstaltungen sind die PostgreSQL Conference Europe und die PGConf US. Es ist auch wichtig, die offizielle Dokumentation von PostgreSQL zu erwähnen. Sie ist eine der detailliertesten und umfangreichsten Ressourcen über PostgreSQL, die es gibt. Sie deckt alles von der Installation und Konfiguration bis hin zu fortgeschrittenen Themen wie benutzerdefinierte Funktionen ab. Darüber hinaus enthält die Dokumentation viele Tutorials und Leitfäden, die Benutzern auf allen Ebenen helfen; vom Anfänger, der seine erste Datenbank einrichtet, bis hin zum erfahrenen Entwickler, der komplexe Abfragen implementiert. Sie können auch großartige Bücher über PostgreSQL finden! Ich empfehle Ihnen, Jakub Romanowskis Artikel Best Books for Learning PostgreSQL zu lesen, in dem einige gute Bücher vorgestellt werden. Schließlich gibt es noch das PostgreSQL-Ökosystem, das eine Vielzahl von Erweiterungen unterstützt, die die Funktionalität von Postgres verbessern. Beliebte Erweiterungen wie PostGIS (für Geodaten), pgAudit (für Audits) und Citrus (für Skalierung) werden von der Community und kommerziellen Unternehmen entwickelt und gepflegt. Das PostgreSQL-Ökosystem umfasst auch viele Tools von Drittanbietern für Backup, Überwachung und Datenbankmanagement. Werkzeuge wie pgAdmin, DBeaver und pgBackRest sind weit verbreitet und werden gut unterstützt. PostgreSQL genießt auch eine starke Unterstützung durch Cloud-Anbieter wie Amazon (mit RDS für PostgreSQL), Google (Cloud SQL für PostgreSQL) und Microsoft (Azure Database für PostgreSQL). Diese Integrationen bieten verwaltete Dienste, die die Bereitstellung und Skalierung von PostgreSQL in der Cloud erleichtern. Zur Veranschaulichung dieses Abschnitts möchte ich Ihnen von der Stack Overflow-Umfrage 2024 berichten. Unter Datenbankprofis ist PostgreSQL zweifellos die beliebteste Datenbank für 2024. Und sie wächst: von 33% im Jahr 2018 auf fast 50% im Jahr 2024, PostgreSQL hat eine große Zukunft! Stack Overflow-Umfrage 2024 Jakub Romanowski hat die Stack Overflow-Umfrage 2024 in seinem Artikel 2024 Database Trends: Is SQL Still the King? Seine Schlussfolgerung? Relationale Datenbanken sind immer noch im Trend und PostgreSQL ist der Boss. 4. Leistung und Skalierbarkeit PostgreSQL ist das Lieblings-DBMS der Datenanalysten in Bezug auf Leistung und Skalierbarkeit. Zunächst einmal ist da die optimierte Speicher-Engine von PostgreSQL, die für die effiziente Verwaltung großer Datenmengen ausgelegt ist. Es verwendet ein fortschrittliches System zur Speicherung auf Seitenebene mit Funktionen wie Multiversion Concurrency Control (MVCC), die einen hohen Transaktionsdurchsatz ermöglichen, ohne dass Zeilen beim Lesen gesperrt werden. MVCC gewährleistet Datenkonsistenz und Isolation in einer gleichzeitigen Umgebung, in der mehrere Transaktionen gleichzeitig ausgeführt werden. Außerdem unterstützt PostgreSQL die Tabellenpartitionierung. Dabei handelt es sich um eine Datenbankentwurfstechnik, bei der große Tabellen durch Aufteilung in kleinere Teile, so genannte Partitionen, verwaltet werden. Jede Partition ist eine Teilmenge der Daten in der Tabelle und wird vom Datenbanksystem als eigene Einheit betrachtet. Die Partitionierung kann die Leistung, die Verwaltbarkeit und die Verfügbarkeit von großen Datenmengen verbessern. PostgreSQL unterstützt mehrere Partitionierungsstrategien, einschließlich Bereichs-, Listen- und Hash-Partitionen. Schließlich erlaubt PostgreSQL parallele Abfragen, die die Leistung der Datenbank verbessern, indem sie mehrere CPU-Kerne für die Verarbeitung großer und komplexer Abfragen nutzen. Diese Funktion ist besonders für die Datenanalyse von Vorteil, da sie Operationen bewältigen kann, die das Scannen großer Tabellen oder die Durchführung komplexer Joins erfordern. 5. sicherheit und Compliance PostgreSQL ist bekannt für seine starken Sicherheits- und Compliance-Funktionen, die es zu einer perfekten Wahl für Unternehmen machen, die strengen Datenschutz und die Einhaltung gesetzlicher Vorschriften verlangen. Die rollenbasierte Zugriffskontrolle (RBAC) ist eine der grundlegenden Sicherheitsfunktionen von Postgres; sie ermöglicht es Administratoren, Berechtigungen zu verwalten und den Zugriff auf die Datenbank zu kontrollieren. Es gibt verschiedene Rollen und Privilegien, die zugewiesen werden können. In PostgreSQL kann eine Rolle einen Benutzer oder eine Gruppe von Benutzern repräsentieren. Rollen können mit bestimmten Rechten ausgestattet werden, um Aktionen auf Datenbankobjekten wie Tabellen, Views und Funktionen durchzuführen. Privilegien bestimmen, welche Aktionen eine Rolle durchführen kann, z.B. SELECT, INSERT, UPDATE, DELETE oder EXECUTE. PostgreSQL verfügt auch über eine Datenverschlüsselung, die hilft, sensible Daten sowohl im Ruhezustand (in der Datenbank gespeicherte Daten) als auch bei der Übertragung zu schützen. Für die Verschlüsselung im Ruhezustand kann das Modul pgcrypto verwendet werden, um die Verschlüsselung und Entschlüsselung von Daten auf Spaltenebene zu ermöglichen. Auf diese Weise können sensible Daten direkt in der Datenbank verschlüsselt werden. Erfahren Sie mehr über PostgreSQL für die Datenanalyse In diesem Artikel haben wir gesehen, warum Datenanalysten häufig PostgreSQL für die Datenanalyse wählen. Wenn Sie die Möglichkeit haben, mit PostgreSQL zu arbeiten, ermutige ich Sie, die erwähnten Funktionen zu erkunden; sie sind faszinierend! Wenn Sie daran interessiert sind, eine Karriere als Datenanalyst zu beginnen, sollten Sie Kateryna Koidans Roadmap to Becoming a Data Analyst nicht verpassen. Wenn Sie PostgreSQL lernen möchten, empfehlen wir Ihnen SQL von A bis Z in PostgreSQL zu besuchen. Erstellen Sie einfach ein kostenloses Konto und absolvieren Sie die ersten Übungen, um zu sehen, wie es aussieht und sich anfühlt. Dann können Sie entscheiden, ob es Ihren Bedürfnissen entspricht. Vielen Dank für die Lektüre dieses Artikels; ich hoffe, er hat Ihnen gefallen! Wir sehen uns im nächsten Artikel! Tags: PostgreSQL Datenanalyse