Nationalratswahl 2017 – data to play with

Mandatsverluste und -gewinne

 

Mandatsverteilung


Google Spreadsheet mit den eingelesenen Daten

 

 

 

 

 

10 praktische Google Spreadsheet Formeln für Datenjournalisten

Eine kurze Einführung in einige hilfreiche Google Spreadsheet Formeln, besonders hilfreich für datengetriebenen Journalismus.

(1) SPLIT

Sample Data for split formula

Teilt Text an bestimmten Trennzeichen in einzelne Zellen auf (das Trennzeichen wird dabei entfernt – entspricht der Menüfunktion „Text in Spalten aufteilen“):

=SPLIT(C3; ":"; TRUE)
  • Was soll aufgeteilt werden?
  • Angabe des Trennzeichen
  • Angabe ob bei jedem Vorkommen des Trennzeichens getrennt werden soll

(2) VLOOKUP

Animated gif with sample vlookup formula

Senkrechter Verweis. Sucht von der ersten Spalte eines Bereichs abwärts nach einem Schlüssel und gibt den Wert einer angegebenen Zelle in der Zeile zurück, die gefunden wurde. Sehr hilfreich beim Zusammenführen von Daten in verschiedenen Tabellenblättern mit einem gemeinsamen Schlüssel.

=VLOOKUP(A3;'02 - VLOOKUP (b)'!A:B;2;FALSE)
  • Angabe des Suchschlüssels
  • Bereich in dem gesucht werden soll (im Beispiel im Tabellenblatt mit dem Namen „02 – VLOOKUP (b)“ in den Spalten A und B)
  • Angabe der Spalte im Bereich, die zurückgegeben wird
  • Angabe, ob die zu durchsuchende Spalte (die erste Spalte des angegebenen Bereichs) sortiert ist (default ist TRUE; wenn der Schlüssel nur 1x im Bereich vorkommt ist FALSE empfehlenswert)

 

HLOOKUP funktioniert analog als horizontaler Verweis.

 

(3) GOOGLETRANSLATE

Sample formulas for googletranslate

Liefert Übersetzungen via Google Translate – schneller Weg für Übersetzungen, die natürlich wie immer bei automatischen Übersetzungen mit Vorsicht zu genießen sind. Für fremdsprachige Datensätze aber mitunter sehr hilfreich.

=GOOGLETRANSLATE(A4; "de"; "fr")
  • Was wird übersetzt (Text oder Zellen)
  • Länderkürzel der Sprache des Quelltextes
  • Länderkürzel der Sprache in die übersetzt wird

(4) CONCATENATE

Concatenate sample formula

 

concatenate2

Verknüpft Zeichenfolgen miteinander (umgekehrte Funktion zu SPLIT).

=CONCATENATE(A2:A5;)
=CONCATENATE(A2; " "; A3; " "; A4; " "; A5; " ")
  • Angabe der zu vernüpfenden Zeichen (z.B. ein Bereich mehrerer Zellen)
  • Angabe kann beliebig oft wiederholt werden (Beispiel 2 mit Einfügen von Leerzeichen zwischen Zellwerten)

(5) LEFT, MID, RIGHT

Sample formula for left function

 

mid

 

right

Mit LEFT, MID und RIGHT erhält man den Teil einer Zeichenfolge.

=LEFT(A1; 3)
  • Die ersten 3 Zeichen von links werden ausgegeben
=MID(A1; 5; 6)
  • Ab dem 5. Zeichen werden die folgenden 6 Zeichen ausgegeben (Achtung: ein Leerzeichen wird mitgezählt, es ist ja auch ein Zeichen)
=RIGHT(A1; 10)
  • Die ersten 10 Zeichen von links werden ausgegeben

(6) SUBSTITUTE

Sample formula for substitute

Ersetzt Teile in einem Text durch eine neue Zeichenfolge.

=SUBSTITUTE(A2; "Max"; "Sabine"; 1)
  • Angabe des Ausgangstextes (z.B. Zelle A2)
  • Zeichenfolge, die ersetzt werden soll
  • Neue Zeichenfolge
  • Anzahl der Wiederholungen (wenn die zu ersetzende Zeichenfolge mehrfach vorkommt; default ist alle Vorkommen zu ersetzen)

(7) UNIQUE

Sample formula for Unique

Gibt eindeutige Werte/Texte aus dem angegebenen Quellbereich zurück.

=UNIQUE(A2:A12)
  • Angabe des Bereichs, in dem die eindeutigen Werte gesucht werden

(8) AVERAGE + MEDIAN

Sample formula for average

 

median

Average errechnet den Mittelwert (Durchschnitt) aus einem angegebenen Bereich; mit Median wird der mittlere Wert errechnet (man stellt sich alle Werte als aufsteigende Reihe vor, und es wird genau der Wert in der Mitte dieser Reihe zurückgegeben). Bei Daten zu Einkommen o.ä. ist oft der Median aussagekräftiger, weil er immun gegen einzelne starke Ausreisser am oberen oder unteren Ende der Reihe ist.

=AVERAGE(B2:B9)
=MEDIAN(B2:B9)
  • beim Median kommt im Vergleich zu Average ein niedrigerer Wert zurück, weil im angegebenen Bereich 8 Werte vorhanden sind, es wird bei einer geraden Anzahl der Durchschnitt der beiden mittleren Werte genommen (im Beispiel: 2500 und 3000 -> Durchschnitt davon 2750, das ergibt den Median)

(9) TRIM

Screenshot Trim Formel

Entfernt unnötige Leerzeichen (am Anfang, am Ende, doppelte Leerzeichen innerhalb des Strings):

=trim(" lorem ipsum")
=trim(A2)

(10) IMPORTHTML

Screenshot showing importhtml formula on sample data

 

Import die Daten einer Tabelle oder einer Liste aus einer HTML-Seite:

=IMPORTHTML("https://de.wikipedia.org/wiki/Liste_der_höchsten_Bauwerke_der_Welt"; "table"; 1)
  • Angabe der URL
  • Element (table oder list)
  • Index des Elements (die wievielte Tabelle/Liste in der HTML-Seite)

Aktualisiert sich laufend aus der HTML-Seite.

 

Daten der Beispiele:

Weiterführende Links:

Pimp my data – UEFA Ausschüttungen 2016

In diesem Artikel auf orf.at verliert man leicht den Überblick – eine erste Hilfe ist ein Textmarker:

uefa-zahlte-rapid-10-6-mio-euro-praemien-sport-orf-at

Noch hilfreicher ist eine Tabelle, die auf einen Blick die Größenordnungen klarmacht:

Syllabus #ddj – Wintersemester 2016/17

 1. Termin (6.10.) – Best practice data driven journalism #ddj

  • Geschichtlicher Abriss, Wurzeln in CAR
  • Multimedia Storytelling Ende 1990er
  • Berührungspunkte Open Data Bewegung
  • Wichtige Player, globale Vernetzung
  • Technische Rahmenbedingungen (Ablöse von Flash, nativer Browsersupport)
  • Auswirkungen der Endgeräterevolution für Präsentation Te(Desktop, Tablet, Mobile…)
  • Beispiele aus der internationalen Praxis

2. Termin (3.11.) – Getting the Data

  • Verfügbarkeit von Daten
  • Rechtliche Rahmenbedingungen (FOI,…)
  • Skillsets und Tools zum Scrapen
  • Bereinigen und Verdichten von Daten
  • Verknüpfen verschiedener Datensätze
  • Visualisierung Einführung Teil 1

3. Termin (18.11.) – Data driven storytelling (1)

  • Befragen der Daten
  • Identifizieren einer tragfähigen Story
  • Visualisierung Teil 2 – hands on Datawrapper

4. Termin (24.11.) – Data driven storytelling (2)

  • Abgrenzung des Projektscopes
  • Antizipieren des Userinteresses
  • Konzeption der Userexperience (UX)
  • Präsentation & Diskussion Blogposts (überarbeitete Texte) Teil 1

5. Termin (1.12.) – Data driven storytelling (3)

  • Best practice Beispiele
  • Vertiefung Bereinigung und Verdichtung
  • Präsentation & Diskussion Blogposts (überarbeitete Texte) Teil 2

6. Termin (22.12.) – Reality Check

  • Kriterien zur Beurteilung bestehender #ddj Anwendungen
  • Kriterien für die Erstellung eigener #ddj Anwendungen
  • Grundlagen Statistik, Kartografie, Informationsdesign
  • #ddj am Plateau of productivity
  • Konzeption und Erstellen eigener #ddj Artikel/Anwendung
  • Präsentation und Diskussion eigenständige Blogposts

Abgabe Termin (13.1.) –

  • Abgabe von ausständigen Blogposts per Mail

Wenn Mary Poppins nur wäre

Vor wenigen Tage wurde die Reform des Kinderbetreuungsgeldes „Kindergeld neu“  seitens des Familienministeriums in Begutachtung geschickt (der Standard berichtete).
Anstelle des „Papa-Monates“ wird es nun „Familienzeit“ geben – Väter können somit direkt nach der Geburt ihres Kindes 31 Tage lang zu Hause bleiben und werden für diesen Zeitraum mit einer Pauschalsumme von 700 € abgegolten. Familien sollen somit entlastet werden.
Doch, wie sieht es mit Familienzeit aus, sobald die Kinder schulpflichtig sind? Wer übernimmt die Kinderbetreuung?

Dieser Fragestellung widmete sich eine quantitativ-qualitativ orientierte Studie des Österreichischen Institutes für Familienforschung (ÖIF) mit Kindern im Alter zwischen 8 und 10 Jahren.

Weiterlesen

Arbeitsmarkt: ein Kommen und Gehen

Fast eine Million Menschen waren 2014 zumindest einmal arbeitslos – die meisten kürzer als sechs Monate

Die Wirtschaft wächst nur langsam, trotzdem sind immer mehr Menschen in Beschäftigung, und gleichzeitig steigt die Zahl der Arbeitslosen. Hinter den monatlich veröffentlichten Zahlen steht ein extrem dynamisches Geschehen mit laufenden Ein- und Ausstiegen am Arbeitsmarkt.

Im vergangenen Dezember waren österreichweit 475.435 Menschen in Arbeitslosigkeit oder Schulungen des Arbeitsmarktservice (AMS). Das entspricht einem Plus von 19.604 Menschen (plus 4,3 Prozent) im Vergleich zum Dezember 2014.[1] Gleichzeitig waren rund 40.000 Menschen mehr in Beschäftigung als ein Jahr davor.[2]

Doch der Arbeitsmarkt ist ständig in Bewegung. Das Kommen und Gehen lässt sich detailliert darstellen, denn das AMS wertet die Zahlen auch personenbezogen aus.[3]
So zeigt sich, dass tatsächlich weit mehr Menschen von Arbeitslosigkeit betroffen sind, als die monatlich gemeldeten Zahlen vermuten lassen: Im Jahr 2014 waren 922.387 Menschen mindestens einen Tag lang als arbeitslos vorgemerkt. Zahlen für 2015 werden laut AMS erst im März vorliegen, vorläufig sind es etwa 950.000 von Arbeitslosigkeit betroffene Menschen.

Weiterlesen

Die Bezirksvertretung in Rudolfsheim-Fünfhaus: Politik vor der Haustür und keiner schaut hin

Aus der Serie „Das Einmaleins der Wiener Bezirkspolitik“: Sind die Wiener Bezirksvertretungen reich, mächtig und – zumindest innerhalb der Bezirksgrenzen – berühmt? Wir versuchen diese Fragen anhand der offiziell verfügbaren statistischen Daten zu erörtern. Heute: Rudolfsheim-Fünfhaus – ist im armen Schmuddelkind-Bezirk die Wahl egal?

Straßenbild in Rudolfsheim-Fünfhaus
Straßenbild in Rudolfsheim-Fünfhaus

Weiterlesen

Euro 2016 – Qualifikation Datensatz

Begleitend zum Datenjournalismuskurs an der FH Wien im Semster 2015/16 dieser Datensatz.

Datenquelle: UEFA Statistik

 

Was wollen wir tun?

Wir wollen die Statistik mit den Toren pro Spieler mit der Statistik der Versuche pro Spieler verschmelzen.

Wie geht es?

Zuerst machen wir es nur mit österreichischen Spielern – Datenblätter „Goals-Austria“ & „Attempts-Austria“.

Wir haben die Daten via copy&paste von der UEFA Seite geholt.

Dann mit vlookup im „Attempts“-Datenblatt die Daten anhand des gemeinsamen Identifikators (Name in der ersten Spalte) aus dem Datenblatt „Goals-Austria“ kopiert.

vlookup-sample

Anschließend nach unten gezogen für die gesamte Spalte H.

Und jetzt für alle Daten (alle Spieler, alle Länder)

Analoger Vorgang dann für die beiden Datenblätter allen Spielern.

Unterschiede:

  1. Copy-Paste ist aufgrund der Vielzahl an Datensätzen bei allen Spielern nicht mehr möglich. Wir importieren daher die Daten mit der Formel „importhtml“.
  2. Erster Versuch direkt auf die UEFA Seite zuzugreifen funktioniert nicht (Datenbankabfrage). Wir speichern die Seite lokal als HTML und greifen dann erneut zu.
  3. Es macht mehr Sinn, die Daten im Datenblatt mit den Toren zusammenzufassen, nicht im Datenblatt mit den Versuchen (viele Spieler haben Versuche, aber nicht alle haben Tore erzielt)

 

Ergebnis

Mit Filtern auf die Anzahl geschossener Tore (5 oder mehr) und den Quoten „Attempts/Goal“ bzw. „Minutes/Goal“ erkennen wir die effizientesten Striker aus der EURO Qualifikation auf einen Blick.

Über „Conditional Formatting“ markieren wir noch den Österreichbezug – und sehen Marc Janko im absoluten Spitzenfeld.

filter-sample

Datensatz zum Nachlesen