Database Research Group

WSI – Database Systems Research Group

DB 1


News
  • Oct 11, 2019 — ⚠️ Die DB1-Vorlesungen am Montag, den 28. Oktober 2019, und Dienstag, den 29. Oktober 2019, fallen aus. — Christian Duta


Im Forum zu DB 1 klären wir alle organisatorischen und inhaltlichen Fragen, die sich im Laufe des Semesters auftun werden. Bitte dort regelmäßig vorbei schauen und keine Scheu zu fragen.

Vorlesung

Die Vorlesung Datenbanksysteme I ist die klassische Einführung in das spannende Gebiet der Datenbanksysteme. Zentrales Thema sind die Relationalen Datenbanksysteme, in denen Daten in tabellarischer Form modelliert, gespeichert und angefragt werden. Dieser strikt tabellarische Blick auf Daten ist elegant, intuitiv aber dennoch formal und durch Datenbanksysteme effizient implementierbar, wirft aber auch interessante Fragen auf, denen wir uns in dieser Vorlesung widmen werden:

  • [ Datenbankbegriff ] Genau welche Services kann ein Datenbanksystem eigentlich bieten?

  • [ Datenmodellierung, ER-Modelle ] Wie bringt man Daten sinnvoll in tabellarische Form, auch wenn Daten zunächst in Form von Objekten, Bäumen, etc. vorliegen?

  • [ Relationales Modell, Normalformen ] Welche Charakteristika von Tabellen können wir ausnutzen, um Daten effizient und redundanzfrei speichern und wieder extrahieren zu können?

  • [ Relationale Algebra, SQL ] Welche Sprachen eignen sich für den Zugriff auf Massen von Tabellendaten?

Sowohl Vorlesung als auch Übung werden von Beispielen und Aufgaben begleitet, die wir mittels des relationalen Datenbanksystems PostgreSQL realisieren werden. PostgreSQL (in Version 11.x oder 12.x) ist für viele Plattformen (u.a. MS Windows, Linux, macOS) frei verfügbar.

Mit SQLite3 und MySQL stehen weitere relationale Datenbanksysteme frei zur Verfügung.

Klausur und Benotung

Die 90-minütige Klausur zu dieser Vorlesung wird am Montag, den 3. Februar 2020, von 10:00–12:00 Uhr stattfinden. Details dazu geben wir im Laufe des Semesters bekannt.

An der Klausur dürfen alle Studierenden teilnehmen, die im Übungsbetrieb dieser Vorlesung mindestens 2/3 der Punkte erreicht haben. Für darüber hinaus erzielte Punkte gewähren wir einen Punktebonus in der Klausur.

Nur für Studierende der Bioinformatik: In dieser Vorlesung können ausnahmsweise auch nur 6 (anstatt regulär 9) ECTS erworben werden. Diese Studierenden steigen dann nach Weihnachten aus dem Vorlesungsbetrieb aus und schreiben am 3. Februar 2020 eine entsprechend angepasste Klausur.

Literatur

  • Ramakrishnan, Gehrke: Database Management Systems

    (3rd International Edition)

    McGraw-Hill, 2003

    ISBN 0-07-246563-8

    Part I dieses Buch deckt die Inhalte zu relationalen Datenbanksystemen gut ab. Part II widmet sich den Inhalten der Vorlesungen Datenbanksysteme II.

  • Kemper, Eickler: Datenbanksysteme

    (10. Auflage)

    De Gruyter Studium, 2015

    ISBN 3-11-044375-9

    Deutsches Standardlehrbuch, das auch Inhalte der Vorlesung
    Datenbanksysteme II bespricht. Eine hervorragende Quelle für weiterführende Referenzen.

PostgreSQL, Python und JSONiq

  • Das relationale Datenbanksystem PostgreSQL ist das Hauptwerkzeug in dieser Vorlesung und auch in den Übungen. Effizient, unkompliziert, standardkonform, erweiterbar und generally awesome. Hinweise zum Download und zur Installation von PostgreSQL. (Für User von Apples macOS bietet Postgres.app eine Installation innerhalb von Sekunden.) [ PostgreSQL Version 9.6 oder 10 ]

  • Gelegentlich werden wir in Vorlesung, Übung und Übungsblättern die Programmiersprache Python einsetzen, um einfache Skripte zur Verarbeitung von Tabellendaten zu entwerfen oder die Funktionsweise von Datenbanksystemen zu illustrieren. Frei verfügbar für alle gängigen Sytsteme und oft bereits vorinstalliert. [ Python Version 2.7 ]

  • Zu Beginn der Vorlesung werden wir JSON als Datenmodell und seine Sprache JSONiq thematisieren. Eine Implementation von JSONiq zum freien Download findet sich auf zorba.io.


Slides
NrChapterDownload
1

Welcome

pdf
2

Data Models and Languages

pdf
3

Typed Data, Declarativity, Data Independence, Persistence

pdf
4

The Relational Data Model

[Last update: Nov 11, 2019 (minor edits on slide 25)]

pdf
5

Constraints

pdf
6

A Diversion into SQL

pdf
7

Referential Integrity

pdf
8

Database Design

pdf
9

Grouping and Aggregation

pdf
Additional material (code, data)
NrFileDownload
1GenBank-Eintrag für *Bakers' Yeast*

Datenmodell Text

txt
2LEGO Set 5610

Datenmodell Text

txt
3Gesamtgewicht des LEGO Set 5610

Shell-Skript, basierend auf sed und awk (Datenmodell Text).

Usage (UNIX-Shell): weight-of-set5610.sh < set5610-1.txt

sh
4LEGO Set 5610

Datenmodell JSON (Nested Arrays and Dictionaries)

json
5USGS Earthquake Data

Datenmodell JSON

json
6Gesamtgewicht des LEGO Set 5610

(JSONiq-Query)

Usage (UNIX-Shell): zorba -r -i -f -q weight-of-set5610.jq

jq
7Stärke des schwersten Erdbebens auf der Nordhalbkugel

(JSONiq-Query)

Usage (UNIX-Shell): zorba -r -i -f -q worst-northern-quake-mag.jq

jq
8Stärke und Ort des schwersten Erdbebens auf der Nordhalbkugel

(JSONiq-Query)

File enthält drei Varianten der Query (zwei Varianten sind derzeit via (: ... :) auskommentiert).

Usage (UNIX-Shell): zorba -r -i -f -q worst-northern-quake-mag-place.jq

jq
9USGS Earthquake Data

Datenmodell Tabular (CSV)

csv
10Python-Modul DB1 (Python 2.7)

Einfache Query-Library (PyQL und relationale Algebra) für Python 2.7. Einbindung in Python-Code via

from DB1 import Table

py
11Python-Modul DB1v3 (Python 3)

Einfache Query-Library (PyQL und relationale Algebra) für Python 3. Einbindung in Python-Code via

from DB1v3 import Table

py
12Stärke und Ort des schwersten Erdbebens auf der Nordhalbkugel

(PyQL-Query, liest CSV-File earthquakes.csv)

Usage (UNIX-Shell): python worst-northern-quake-mag-place.py

py
13Tabelle contains (LEGO Sets)

Datenmodell Tabular (CSV)

csv
14Tabelle bricks (LEGO Bausteine)

Datenmodell Tabular (CSV)

csv
15Tabelle minifigs (LEGO Minifiguren)

Datenmodell Tabular (CSV)

csv
16Gewicht des LEGO Set 5610

(PyQL-Query)

Usage (UNIX-Shell): python weight-of-set5610.py

py
17Gewicht des LEGO Set 5610 (Optimierung #1)

(PyQL-Query)

Optimierung basiert auf Regeln (constraints) der LEGO Mini-World: eindeutige Identifier in Tabellen bricks und minifigs sowie Disjunktheit beider Tabellen.

Usage (UNIX-Shell): python weight-of-set5610-key.py

py
18Gewicht des LEGO Set 5610 (Optimierung #2)

(PyQL-Query)

Optimierung basiert auf Konstruktion einer temporären Datenstruktur (Dictionary/partielle Funktion quantity).

Usage (UNIX-Shell): python weight-of-set5610-temp.py

py
19Gewicht des LEGO Set 5610 (Data Independence #1)

(PyQL-Query)

Einführung einer temporären Liste pieces als Vereinigung von bricks und minifigs.

Usage (UNIX-Shell): python weight-of-set5610-pieces-list.py

py
20Gewicht des LEGO Set 5610 (Data Independence #2)

(PyQL-Query)

Basiert auf einer neuen persistenten Tabelle pieces.csv, die in der UNIX-Shell durch folgendes Kommando konstruiert werden kann:

cut -f1-6 bricks.csv | last +2 | cat minifigs.csv - > pieces.csv

Usage (UNIX-Shell): python weight-of-set5610-pieces-table.py

py
21Kopie (Schema und Zustand) einer Tabelle erstellen

(SQL-Skript)

Kopiert erst Schema und dann Zustand einer existierenden Tabelle, benötigt lediglich je ein DDL- und DML-Statement.

Usage (UNIX-Shell): psql -f insert-query.sql

sql
22SQL DML Statements (Tabelle `calendar`)

(SQL-Skript)

Demonstration der SQL DML Kommandos INSERT, UPDATE und DELETE.

Usage (UNIX-Shell): psql -f calendar.sql

sql
23SQL Foreign Data Wrapper

(SQL-Skript)

Demonstration des PostgreSQL Foreign Data Wrappers (CSV-File wird in den Zustand einer Relation gespiegelt, read-only: Änderungen im CSV-File werden vom RDBMS übernommen, INSERT/UPDATE/DELETE-Kommandos sind auf die Relation nicht anwendbar).

Achtung: Im SQL-Skript muss der (absolute) Pfad zum CSV-File angepasst werden.

Usage (UNIX-Shell): psql -f fdw.sql

sql
24SQL DDL Statements zur Deklaration von Constraints

(SQL-Skript)

Reichert Tabelle calendar mit einer Reihe von Constraints an, um die Abbildung der Kalender-Miniwelt in die Datenbank zu verfeinern.

Usage (UNIX-Shell): psql -f calendar-constraints.sql

sql
25Kandidaten- und Primärschlüssel

(SQL-Skript)

Deklariert und lädt die Tabellen der LEGO-Miniwelt und fügt Kandidaten- sowie Primärschlüssel hinzu. NB: Einige SQL-Statements führen zu (erwarteten) Fehlern, siehe Kommentare.

Achtung: Im SQL-Skript müssen die (absoluten) Pfade zu den CSV-Files angepasst werden.

Usage (UNIX-Shell): psql -f keys.sql

sql
26Die SQL FROM-Klausel

(SQL-Skript)

Demonstriert, dass die Nennung von Subqueries in der FROM-Klausel reihenfolgeunabhängig ist.

Usage (UNIX-Shell): psql -f calendar-attendees.sql

sql
27Row-Types und Row-Values in SQL

(SQL-Skript)

Demonstriert das Konzept der row types und row values in SQL.

Usage (UNIX-Shell): psql -f row-types.sql

sql
28(Überflüssiges) DISTINCT in SQL

(SQL-Skript)

Demonstriert, das für einige Queries die Nennung von DISTINCT überflüssig sein kann, da ohnehin keine Duplikate erzeugt werden. Das RDBMS erkennt die meisten dieser Situationen nicht selbsttätig.

Usage (UNIX-Shell): psql -f distinct-vs-keys.sql

sql
29SQL: Equi-Joins, θ-Joins

(SQL-Skript)

Demonstriert die Formulierung von Equi- und allgemeiner θ-Joins (Theta-Joins), auch zwischen mehreren Tabellen (hier: 3-Way Join).

Usage (UNIX-Shell): psql -f who-is-busy-at-what-times.sql

sql
30SQL: Kompositionalität (Subqueries)

(SQL-Skript)

Demonstriert den Einsatz von Subqueries (⟨query⟩) in der Berechnung von Ausdrücken.

Usage (UNIX-Shell): psql -f compositional.sql

sql
31SQL: Kompositionalität (WITH)

(SQL-Skript)

Demonstriert den Einsatz von WITH ... zur Konstruktion komplexerer Queries. Die in WITH gebundenen Namen sind nur lokal sichtbar und sind nicht persistent.

Usage (UNIX-Shell): psql -f large-yellow-bricks.sql

sql
32SQL: Korrelierte Unteranfragen

(SQL-Skript)

Demonstriert die Nutzung korrelierter Unteranfragen (die freie Variablen beinhalten, die in der umgebenden Anfrage gebunden werden).

Usage (UNIX-Shell): psql -f correlation.sql

sql
33SQL: Fremdschlüssel

(SQL-Skript)

Demonstriert die Deklaration und den Einsatz von Fremdschlüsseln (foreign keys), um eine konsistente Verweisstruktur zwischen Source- und Target-Tabellen zu gewährleisten.

Achtung: Im SQL-Skript müssen die (absoluten) Pfade zu den CSV-Files angepasst werden.

Usage (UNIX-Shell): psql -f foreign-keys.sql

sql
34SQL: Referentielle Integrität

(SQL-Skript)

Demonstriert die (manuelle) Überprüfung der referentiellen Integrität einer Datenbank mittels der SQL-Prädikate EXISTS und [NOT] IN.

Achtung: Im SQL-Skript muss ein (absoluter) Pfad zu einem CSV-File angepasst werden.

Usage (UNIX-Shell): psql -f referential-integrity.sql

sql
35SQL: Intra-Table Foreign Keys (Operationen auf Bäumen)

(SQL-Skript)

Repräsentation von Bäumen mittels Fremdschlüsseln innerhalb einer Tabelle (tree). Baum-Operationen führen zu Self-Joins.

Usage (UNIX-Shell): psql -f intra-table-foreign-keys.sql

sql
36SQL (1NF vs NF²): Codierung strukturierter Information als Text

(SQL-Skript)

Repräsentation von Logo turtle drawing commands mittels Datentyp text. Führt zur Extraktion von Teilinformation mittels regulärer Ausdrücke (Funktionen regxp\_split\_to\_table(), regexp\_matches()).

Usage (UNIX-Shell): psql -f turtle-text.sql

sql
37SQL (1NF vs NF²): Codierung strukturierter Information in Arrays

(SQL-Skript)

Repräsentation von Logo turtle drawing commands mittels Arrays von Kommandos (Typ cmd[]). Benutzt tabellen-generierende Funktion unnest() als "Brücke" von Arrays zu Tabellen.

Usage (UNIX-Shell): psql -f turtle-array.sql

sql
38SQL (1NF vs NF²): Codierung strukturierter Information in geschachtelten Tabellen

(SQL-Skript)

Repräsentation von Logo turtle drawing commands in geschachtelten Tabellen — die resultierende Tabelle ist in Non-First Normal Form (NF²). Nach Entschachtelung wird die NF²-Tabelle durch zwei 1NF-Tabellen shapes und turtles repräsentiert.

Usage (UNIX-Shell): psql -f turtle-1NF.sql

sql
39SQL (1NF vs NF²): Übersetzung von NF²SQL-Queries in reguläres SQL

(SQL-Skript)

Übersetzung von Anfragen der hypothetischen "NF²SQL"-Sprache in reguläre SQL-Queries über Bundles von 1NF-Tabellen (hier: shapes und turtles).

Usage (UNIX-Shell): psql -f functions-1NF.sql

sql
40SQL: Gruppierung und Aggregation

(SQL-Skript)

Demonstration verschiedener SQL Aggregat-Funktionen (siehe auch die PostgreSQL 11-Dokumentation zu Aggregat-Funktionen).

Usage (UNIX-Shell): psql -f grouping-aggregation.sql

sql
41SQL: Gruppierung und Aggregation (im Turtle-Beispiel)

(SQL-Skript)

Demonstration von Gruppierung und Aggregation im shapes/turtles-Beispiel.

Usage (UNIX-Shell): psql -f grouping-turtle.sql

sql
42SQL: Gruppierung und Aggregation (Kalender)

(SQL-Skript)

Gruppierung und Aggregation auf der Kalender-Datenbank

Usage (UNIX-Shell): psql -f who-is-busy-at-what-times-grouped.sql

sql