Pimp my data – UEFA Ausschüttungen 2016

In diesem Artikel auf orf.at verliert man leicht den Überblick – eine erste Hilfe ist ein Textmarker:

uefa-zahlte-rapid-10-6-mio-euro-praemien-sport-orf-at

Noch hilfreicher ist eine Tabelle, die auf einen Blick die Größenordnungen klarmacht:

Syllabus #ddj – Wintersemester 2016/17

 1. Termin (6.10.) – Best practice data driven journalism #ddj

  • Geschichtlicher Abriss, Wurzeln in CAR
  • Multimedia Storytelling Ende 1990er
  • Berührungspunkte Open Data Bewegung
  • Wichtige Player, globale Vernetzung
  • Technische Rahmenbedingungen (Ablöse von Flash, nativer Browsersupport)
  • Auswirkungen der Endgeräterevolution für Präsentation Te(Desktop, Tablet, Mobile…)
  • Beispiele aus der internationalen Praxis

2. Termin (3.11.) – Getting the Data

  • Verfügbarkeit von Daten
  • Rechtliche Rahmenbedingungen (FOI,…)
  • Skillsets und Tools zum Scrapen
  • Bereinigen und Verdichten von Daten
  • Verknüpfen verschiedener Datensätze
  • Visualisierung Einführung Teil 1

3. Termin (18.11.) – Data driven storytelling (1)

  • Befragen der Daten
  • Identifizieren einer tragfähigen Story
  • Visualisierung Teil 2 – hands on Datawrapper

4. Termin (24.11.) – Data driven storytelling (2)

  • Abgrenzung des Projektscopes
  • Antizipieren des Userinteresses
  • Konzeption der Userexperience (UX)
  • Präsentation & Diskussion Blogposts (überarbeitete Texte) Teil 1

5. Termin (1.12.) – Data driven storytelling (3)

  • Best practice Beispiele
  • Vertiefung Bereinigung und Verdichtung
  • Präsentation & Diskussion Blogposts (überarbeitete Texte) Teil 2

6. Termin (22.12.) – Reality Check

  • Kriterien zur Beurteilung bestehender #ddj Anwendungen
  • Kriterien für die Erstellung eigener #ddj Anwendungen
  • Grundlagen Statistik, Kartografie, Informationsdesign
  • #ddj am Plateau of productivity
  • Konzeption und Erstellen eigener #ddj Artikel/Anwendung
  • Präsentation und Diskussion eigenständige Blogposts

Abgabe Termin (13.1.) –

  • Abgabe von ausständigen Blogposts per Mail

Wenn Mary Poppins nur wäre

Vor wenigen Tage wurde die Reform des Kinderbetreuungsgeldes „Kindergeld neu“  seitens des Familienministeriums in Begutachtung geschickt (der Standard berichtete).
Anstelle des „Papa-Monates“ wird es nun „Familienzeit“ geben – Väter können somit direkt nach der Geburt ihres Kindes 31 Tage lang zu Hause bleiben und werden für diesen Zeitraum mit einer Pauschalsumme von 700 € abgegolten. Familien sollen somit entlastet werden.
Doch, wie sieht es mit Familienzeit aus, sobald die Kinder schulpflichtig sind? Wer übernimmt die Kinderbetreuung?

Dieser Fragestellung widmete sich eine quantitativ-qualitativ orientierte Studie des Österreichischen Institutes für Familienforschung (ÖIF) mit Kindern im Alter zwischen 8 und 10 Jahren.

Weiterlesen

Arbeitsmarkt: ein Kommen und Gehen

Fast eine Million Menschen waren 2014 zumindest einmal arbeitslos – die meisten kürzer als sechs Monate

Die Wirtschaft wächst nur langsam, trotzdem sind immer mehr Menschen in Beschäftigung, und gleichzeitig steigt die Zahl der Arbeitslosen. Hinter den monatlich veröffentlichten Zahlen steht ein extrem dynamisches Geschehen mit laufenden Ein- und Ausstiegen am Arbeitsmarkt.

Im vergangenen Dezember waren österreichweit 475.435 Menschen in Arbeitslosigkeit oder Schulungen des Arbeitsmarktservice (AMS). Das entspricht einem Plus von 19.604 Menschen (plus 4,3 Prozent) im Vergleich zum Dezember 2014.[1] Gleichzeitig waren rund 40.000 Menschen mehr in Beschäftigung als ein Jahr davor.[2]

Doch der Arbeitsmarkt ist ständig in Bewegung. Das Kommen und Gehen lässt sich detailliert darstellen, denn das AMS wertet die Zahlen auch personenbezogen aus.[3]
So zeigt sich, dass tatsächlich weit mehr Menschen von Arbeitslosigkeit betroffen sind, als die monatlich gemeldeten Zahlen vermuten lassen: Im Jahr 2014 waren 922.387 Menschen mindestens einen Tag lang als arbeitslos vorgemerkt. Zahlen für 2015 werden laut AMS erst im März vorliegen, vorläufig sind es etwa 950.000 von Arbeitslosigkeit betroffene Menschen.

Weiterlesen

Die Bezirksvertretung in Rudolfsheim-Fünfhaus: Politik vor der Haustür und keiner schaut hin

Aus der Serie „Das Einmaleins der Wiener Bezirkspolitik“: Sind die Wiener Bezirksvertretungen reich, mächtig und – zumindest innerhalb der Bezirksgrenzen – berühmt? Wir versuchen diese Fragen anhand der offiziell verfügbaren statistischen Daten zu erörtern. Heute: Rudolfsheim-Fünfhaus – ist im armen Schmuddelkind-Bezirk die Wahl egal?

Straßenbild in Rudolfsheim-Fünfhaus
Straßenbild in Rudolfsheim-Fünfhaus

Weiterlesen

Euro 2016 – Qualifikation Datensatz

Begleitend zum Datenjournalismuskurs an der FH Wien im Semster 2015/16 dieser Datensatz.

Datenquelle: UEFA Statistik

 

Was wollen wir tun?

Wir wollen die Statistik mit den Toren pro Spieler mit der Statistik der Versuche pro Spieler verschmelzen.

Wie geht es?

Zuerst machen wir es nur mit österreichischen Spielern – Datenblätter “Goals-Austria” & “Attempts-Austria”.

Wir haben die Daten via copy&paste von der UEFA Seite geholt.

Dann mit vlookup im “Attempts”-Datenblatt die Daten anhand des gemeinsamen Identifikators (Name in der ersten Spalte) aus dem Datenblatt “Goals-Austria” kopiert.

vlookup-sample

Anschließend nach unten gezogen für die gesamte Spalte H.

Und jetzt für alle Daten (alle Spieler, alle Länder)

Analoger Vorgang dann für die beiden Datenblätter allen Spielern.

Unterschiede:

  1. Copy-Paste ist aufgrund der Vielzahl an Datensätzen bei allen Spielern nicht mehr möglich. Wir importieren daher die Daten mit der Formel “importhtml”.
  2. Erster Versuch direkt auf die UEFA Seite zuzugreifen funktioniert nicht (Datenbankabfrage). Wir speichern die Seite lokal als HTML und greifen dann erneut zu.
  3. Es macht mehr Sinn, die Daten im Datenblatt mit den Toren zusammenzufassen, nicht im Datenblatt mit den Versuchen (viele Spieler haben Versuche, aber nicht alle haben Tore erzielt)

 

Ergebnis

Mit Filtern auf die Anzahl geschossener Tore (5 oder mehr) und den Quoten “Attempts/Goal” bzw. “Minutes/Goal” erkennen wir die effizientesten Striker aus der EURO Qualifikation auf einen Blick.

Über “Conditional Formatting” markieren wir noch den Österreichbezug – und sehen Marc Janko im absoluten Spitzenfeld.

filter-sample

Datensatz zum Nachlesen

 

 

Erklären, Verorten, Überprüfen – Datenjournalismus Highlight

Und wie reich sind Sie? Das unterschätzte Vermögen der österreichischen Privathaushalte, Das schrumpfende Kärnten und Fairness bei der Fußball WM 2014 – drei von 26 hochspannenden Projekten, die im Zuge meiner Lehrveranstaltung Datenjournalismus an der FH Wien im Wintersemester 2013/15 entstanden sind.

An diesen drei Projekten von Studierenden lassen sich exemplarisch einige der wesentlichen Grundzüge des Datenjournalismus veranschaulichen, was ich im Folgenden als kleine Nachlese zum abgeschlossenen Semester unternehmen möchte:

(1) Erklären – Science (from Latin scientia, meaning “knowledge”)

Julia Schwaiger und Franziska Lehner bringen in ihrem Blogpost Und wie reich sind Sie? Das unterschätzte Vermögen der österreichischen Privathaushalte frische Erkenntnisse aus der Wissenschaft in eine hochemotional geführte Debatte ein.

Die Leser erfahren, wieviel Vermögen die wohlhabendsten 10% der Bevölkerung auf sich vereinen, wo Österreich im europäischen Vergleich steht und wieso eine alternative Berechnungsmethode ein noch drastischeres aber plausibleres Bild zeichnet.

Für die Gegenüberstellung der beiden wissenschaftlichen Studien erklären die Autorinnen anschaulich das Pareto-Prinzip und fassen die Unterschiede in einer handgezeichneten Chart zusammen. Gegenüber der originalen Household Finance and Consumption Survey (HFCS)-Studie zeigt die Studie der Johannes-Kepler Uni Linz eine noch stärkere Vermögenskonzentration v.a. im obersten 1% der Bevölkerung:

Grafik Vermögen_ohne Legende
Grafik Vermögen_Legende

Zu Recht halten Julia Schwaiger und Franziska Lehner nach einer Befragung verschiedener politischer Positionen als Konklusio fest:

Wie auch immer man zu Steuerfragen steht: ein erster wichtiger Schritt, um überhaupt eine fundierte politische Debatte darüber führen zu können, wäre, das Thema Reichtum aus seinem Versteck hervor zu holen und seine Bedeutung für die Gesamtgesellschaft offen zu legen.

Highlights dieses Blogposts: Wissenschaftliche Erkenntnisse verständlich aufbereiten, kritisch hinterfragen und allgemeinverständlich erklären.

(2) Verorten – Maps: Here be dragons – not any more.

Die Zeiten, als in unbekannte Territorien auf Landkarten Drachen eingezeichnet wurden, sind lange vorbei. Mehr und mehr Daten sind für jeden Flecken Erde verfügbar. So ergibt sich ein immer vollständigeres Bild, das regionale und lokale Unterschiede erkennbar macht.

In Das schrumpfende Kärnten zeigt Dominik Leitner das exemplarisch anhand der Bevölkerungsentwicklung im Land des Lindwurms auf.

Ausgehend von einer weit in die Zukunft projizierten Prognose der Statistik Austria (Kärnten schrumpft demnach bis 2075 als einziges Bundesland, um knapp 10% der Einwohner) identifiziert der Autor den Sonderfall Kärnten, und geht der Frage nach “Where have all the Kärntners gone?”.

kaernten-map

Wanderungsbilanzen, demographische Entwicklung, Landflucht und ökonomische Parameter helfen bei einer schwierigen Spurensuche, die es redlich vermeidet, vorschnelle Kurzschlüsse zu ziehen.

Highlights: regionale Karten mit Mehrwert, unterschiedliche Facetten eines Phänomens werden beleuchtet.

(3) Überprüfen – Factchecking FIFA: Foul!

In Fairness bei der Fußball WM 2014 zeigt Michael Brandstetter plastisch und nachvollziehbar auf, wie lohnend es sein kann, einer gefühlten Schieflage bei einer statistischen Wertung empirisch nachzugehen. Auch “harte” Daten wie die Anzahl gelber oder roter Karten benötigen für einen Vergleich wie eine Fairness-Wertung der FIFA eine Relation, z.B. der absolvierten Minuten pro Mannschaft.

Und in Zeiten umfassend vorliegender Daten lohnt eine Ausdehnung der Datenbasis über den ersten Augenschein hinaus. Eine Ergänzung um die Anzahl der begangenen Fouls ergibt ein authentischeres Bild und liefert eine wesentlich stärkere Aussagekraft:

7 -Overall

Eine weltumspannend tätige Organisation wie die FIFA wird ihren Umgang mit Daten über kurz oder lang weiter entwickeln müssen. Michael Brandstetter zeigt, in welche Richtung es gehen kann.

Highlights: Factchecking eines Weltkonzerns, Relationen und sinnvolle Erweiterung der Datenbasis.

Fazit

Auch wenn diese kleine Rückschau anhand von drei Beiträgen nicht als repräsentativ gewertet kann, sie zeigt, das Potential, das im Datenjournalismus steckt. Ein sorgfältiger, gewissenshafter und handwerklich solider Zugang, der Daten als Quellen ernst nimmt, sie kritisch befragt und Erkenntnisse freilegt, die anders nicht zu bekommen sind.

Fairness bei der Fußball WM 2014

Im Rahmen der Fussball WM 2014 in Brasilien wurde von der FIFA auch ein Fairness-Pokal verliehen. Diesen bekam Kolumbien zugesprochen.

Moment – ist da nicht dieses unsportliche Foul eines Kolumbianers an Neymar in Erinnerung, dass den brasilianischen Jung-Star direkt ins Krankenhaus beförderte und eine schwere Wirbelsäulenverletzung zur Folge hatte?

Grund genug, die Mannschaften der WM näher zu betrachten, im Besonderen deren sportliches Verhalten hinsichtlich Fouls und erhaltenen Karten.

Auf der FIFA-Seite finden sich detaillierte Statistiken diesbezüglich und weisen Kolumbien tatsächlich als die Mannschaft aus, welche die wenigsten gelben, gelb-roten und roten Karten erhalten hat.

4 - Kartenwertung absolut

Jedoch sind diese Zahlen nur absolut zu betrachten und berücksichtigen in keiner Weise die absolvierten Spielminuten oder gar die begangenen Fouls.

Um ein besseres und aussagekräftigere Bild zu bekommen, werden die Mannschaften, welche zumindest das Viertelfinale erreichten, nachfolgend genauer betrachtet.

Und zwar nicht nur hinsichtlich der erhaltenen Karten, sondern auch im relativen Vergleich der begangenen Fouls nach absolvierten Spielminuten. Hier offenbart sich schon ein etwas anderes Bild.

Denn nach begangenen Fouls pro Match reiht sich Kolumbien deutlich weiter hinten ein.

1- Statistik FIFA

Fairplay gesamt

Auch bei lediglicher Betrachtung der erhaltenen gelben Karten, relativiert auf 90 Minuten, ergibt sich wieder ein eigenes Bild, welches Weltmeister Deutschland mit weniger als einer gelben Karte als fairste Mannschaft ausweist. Zudem sei bedacht, dass mit Fortgang des Tourniers die Mannschaften dem ersehnten Titel immer näher kommen und Deutschland sieben Spiele absolvierte.

3 - Gelbe Karten pro 90 min

Auch die absolvierten Spielminuten sind unter allen Mannschaften, die mindestens das Viertelfinale erreichten, auf Grund der absolvierten Verlängerungen im Turnier sehr unterschiedlich.

5 -Kartenwertung plus Spielminuten

Wer sich provozieren lässt..

Wenn nach einem neuen, aussagekräftigen Faktor gesucht wird, so kann man begangene Fouls in der Relation zu erhaltenen Fouls betrachten. Wird eine Mannschaft durch vermehrtes Foulspiel provoziert, so steigt wohl die Chance, dass diese ihrerseits mit vermehrten Unsportlichkeiten darauf reagiert. Auch gewisse Spieler, meist diejenigen, welche sehr viele Ballkontakte haben, werden vermehrt frühzeitig unter Druck gesetzt, gefoult und reagieren früher oder später oftmals selbst mit unfairen Attacken darauf.

Aber ist es wirklich so, dass Mannschaften, die ruppigem Spiel der gegner ausgeliefert sind, zwangsläufig mit vermehrtem Foulspiel darauf reagieren?

Setzt man nun erhaltene und begangene Fouls in Relation, so ist ein Wert deutlich unter 1 wohl als Indikator für eine Mannschaft zu werten, die sich nicht leicht provozieren lässt.

Nachfolgende Statistik soll diesen Faktor näher beleuchten und weist den Finalisten Argentinien diesbezüglich mit dem besten Wert (0,69) aus:

6 - Provokation

Eine kombinierte Wertung aus relativierten Daten von Karten und Fouls wie auch Berücksichtung der absolut erhaltenen Karten soll ein deutlicheres Bild offenbaren.

combined stack

Berücksichtigt man alle verfügbaren Daten und addiert diese, so erhält man eine Wertung, die zwar Frankreich knapp als Sieger ausweist. Jedoch nur ganz knapp vor Weltmeister Deutschland, die ihrerseits auf deutlich mehr absolvierte Spielminuten verweisen können.

7 -Overall

Weit abgeschlagen findet man hier den Gastgeber Brasilien und auch der vermeintliche Fairness-Sieger Kolumbien erwies sich nicht als die fairste Mannschaft dieser Weltmeisterschaft.

Und die Schiedsrichter, welche manchmal leider auch Fehlentscheidungen treffen, werden hier natürlich ebensowenig berücksichtigt wie versteckte Fouls, die nicht geahndet wurden.

Hier verhält es sich ähnlich wie mit der Frage nach Abseits.

Abseits ist es dann, wenn der Schiedsrichter pfeift, basta.

Da hilft kein Jammern und keine Beschwerde, ebenso wenig wie beim Zücken von Karten oder beim Ahnden von Fouls.

Alles eben relativ.