Best primer to different types of charts ever

There are quite some sober and more vivid overviews of different charts, easily found via a search phrase of your choosing.

But there is one outstanding introduction to the power of charts and graphs – and the advantages of a certain type:

Turning 30: Described in Charts and Graphs provides a data-driven “completely scientific analysis of what it means to turn the dirty 30”. And, most relevant for our datajournalism class, gives great examples for different charts:

Bar Chart:
bar-charts

Stacked Bar Chart:
stacked-bar-chart

Spider Chart:
spider-chart

Area Chart:
area-chart

See Turning 30: Described in Charts and Graphs for more.

Maps – considering projections

Maps should be used in moderation

says Friedrich Lindenberg – and he is right. It is tempting to use maps for all kinds of visualizations, but there a quite a lot of pitfalls (a classic one: your data actually relates to the number of people living in a certain area, not the size of that area).

One aspect for maps relating to the size of countries (or continents) that has to be considered is the choice of the projection. The definitive must-see in this field is The True Size of Africa.

True size of Africa

 

Compare that with the classic Mercator projection (as used in Google Maps and also Infogr.am):

world-mercator

And see a Robinson projection for contrast. The size of Greenland is almost as stunning as Africa.

world-robinson

Screenshots for projections from Mapstarter.

Tools, tools, tools

Recommendations for simple charts:

Datawrapper

Infogr.am

Chartbuilder

RAW

 

Very helpful list for a broad range of tools: Digital Resources for investigative reporters, by Friedrich Lindenberg.

Some quotes:

Data driven marketing – ein Beispiel für verspätete Quellenkritik beim Guardian

Dem Guardian ist in diesem Artikel ein lehrreicher und typischer Fehler bei der Übernahme einer Agenturmeldung unterlaufen. Der Artikel ging mit der Headline “Britain’s most popular baby boy’s name? Muhammad” live.

Hier der entsprechende Screenshot:

guardian-babynames

Wenig später erkannte man beim Guardian, dass die Aussage des Artikels in der zugespitzten Form nicht haltbar war. Die Artikel stützte sich auf Daten aus einer Umfrage der Seite BabyCentre, suggerierte aber eine Repräsentativität für die Gesamtbevölkerung in Großbritannien.

In einer Überarbeitung des Artikels wurde der Titel relativiert: “Britain’s most popular baby boy’s name? Muhammad, survey claims”

Im Anreisser wurde auch nicht mehr festgestellt, dass die BabyCentre Website einen Anstieg arabischer Namen “enthüllt” (“reveals”) habe, sondern dass sie das lediglich “behaupte” (“says”). Ein beigestellter Artikel des Guardian Data Blog beleuchtete die tatsächliche Faktenlage.

Hier der Screenshot des aktualisierten Artikels:

guardian-babynames-corrections

Eine Erklärung über die Editierung des Artikels:

guardian-babynames-corrections-explained

Und der Datablog Artikel, der den Umfragedaten der Webseite BabyCentre, repräsentativere Zahlen zur Namensstatistik entgegenhält. Die zuvor behauptete Topposition von “Muhammad” als populärster Bubenname 2014 wird durch die offiziellen Zahlen von 2013 widerlegt. Muhammad liegt auf Platz 15 und ist auch bei Berücksichtigung verschiedener Schreibweisen nicht auf Platz 1 (weil dann auch für andere Namen verschiedene Schreibweisen zusammengefasst werden müssten, etwa “Oliver” und “Ollie”).

 

guardian-datablog

 

guardian-datablog-data

In einem weiteren Artikel beleuchtet der Guardian schließlich die “Wahrheit über Britanniens missverstandensten Namen Muhammad”:

 

So why does the story keep returning? Partly, perhaps, because it plays on fears of both immigration and cultural change. While Muslims make up 4.4% of the UK population, a more significant factor is that, while the rest of the population is increasingly choosing from a wider pool of names (think Tyrion and Piper, apparently inspired by Game of Thrones and Orange is the New Black), Muslims are sticking with Muhammad.

Der Guardian kratzt mit dieser offensiven Auseinandersetzung mit einem Quellenfehler also nochmal die Kurve und dreht das Thema glaubwürdig  weiter.

 

Lessons learned:

  • Quellen für Daten hinterfragen
  • Repräsentative Daten der Gesamtbevölkerung? Oder ein Sample aus einer Umfrage von einer (nicht repräsentativen) Seite oder Studie?
  • Wer ist der Absender der Daten, wer hat sie erhoben? Wie? Mit welchem Interesse?
  • Ein Beispiel für Data driven marketing: eine scheinbar objektive Story mit hohem Newswert steigert die Aufmerksamkeit für die Webseite BabyCentre

Spreadsheet to the rescue

Unser Test-Datensatz: Bevölkerung Wien – Entwicklung 2001-2013 nach Bezirken.
https://docs.google.com/spreadsheets/d/1aDShs4ipYLcLNSnY1CrFB0DTANA2B-jCLRnll-6F5rg/edit?usp=sharing

Quelle: Open Data Portal Österreich

Hinweis: der originale Datensatz enthält mehr Daten (bis zurück nach 1869). Für eine leichtere Handhabung und einfachere Darstellung bei den Screenshots habe ich auf die Jahre ab 2001 (in 2-Jahressprüngen bis 2013) reduziert.

Ein erster Blick auf unseren Datensatz: wir haben eine Spalte mit den Bezirken von 01 bis 23 und sieben weiteren Spalten mit den Jahren ab 2001 in denen die Bevölkerungszahl für den jeweiligen Bezirk enthalten sind.

a-data

Die farbliche Formatierung der ersten Spalte und aller Spaltenüberschriften hilft bei der Orientierung. Wir frieren die erste Spalte und die erste Reihe auch ein – damit bleiben sie stehen beim Scrollen in der Tabelle.

b-formatiert

Bislang haben wir in der Tabelle nur Zahlen und Text – den beiden grundlegenden Typen von Zellinhalten in einem Tabellenkalkulationsprogramm wie Google Spreadsheet oder Microsoft Excel.

Sowohl mit Text als vor allem natürlich mit Zahlen können in einer Tabellenkalkulation eine Vielzahl von Bearbeitungen und Berechnungen durchgeführt werden. Eine Formel wird durch ein Ist-gleich Zeichen eingeleitet, danach folgen die Bezeichnung der eigentlichen Funktion und die übergebenen Argumenten (Bereich auf den die Formel angewandt wird, evtl. weitere Optionen).

Wir wollen jetzt für jedes Jahr die Gesamtbevölkerung Wiens ausrechnen, also die Werte der Bezirke addieren. Wir setzen den Cursor in der Spalte B (Jahr 2001) ans Ende und definieren den Bereich der addiert werden soll – die Zellen B2 bis B24.

Nachdem wir den Wert für die erste Jahresspalte berechnet haben, übertragen wir die Formel auf die benachbarten Zellen: Cursor ins rechte Eck der Zelle setzen, ein Fadenkreuz erscheint, das zieht man mit gedrückter Maustaste nach rechts auf die weiteren Jahresspalten. Es werden die Summen für die weiteren Jahre gebildet.

Als nächstes wollen wir die Veränderung des aktuellsten zum ältesten Wert analysieren, welcher Bezirk ist am stärksten gewachsen? Die absolute Veränderung von 2001 zu 2013 erhält man ganz einfach durch die Subtraktion der jeweiligen Jahreswerte in den Zellen H2 bzw. B2 (für den ersten Bezirk).

Das Ergebnis für den ersten Bezirk kann dann analog durch den Klick in der rechten Ecke auf die anderen Bezirke übertragen werden (Google Spreadsheet versteht die Absicht, die Formel analog für die weiteren Reihen auszuführen, und berechnet folglich für den 2. Bezirk H3-B3, für den 3. Bezirk H4-B4 etc.). Wir haben in unserer Formel einen sogenannten relativen Bezug auf bestimmte Zellen definiert.

d-veraenderung-2001-2013

Nachdem wir die absoluten Werte für alle Bezirke berechnet haben, setzen wir jetzt den jeweiligen Zuwachs in Relation zur Größe des jeweiligen Bezirks. Das geschieht über die Formel (H2-B2)/B2*100 – also zuerst die absolute Differenz zwischen den Werten der Jahre 2013 und 2001 berechnen, dann durch den Wert von 2001 dividieren, und mit 100 multiplizieren, damit ein Prozentwert entsteht.

Wir können jetzt schon erkennen, dass der 10. Bezirk sowohl in absoluten Zahlen als auch relativ (+21,22%) am stärksten gewachsen ist, gefolgt vom 22. Bezirk. Der Bezirk mit dem drittgrößten prozentuellen Zuwachs ist der 11. Bezirk (+19,99%) – in absoluten Zahlen wäre der 11. Bezirk aber hinter dem 21. Bezirk, der aber aufgrund der höheren Einwohnerzahl relativ “nur” um 14,26% gewachsen ist.
e-sort

Eine weitere Ausprägung des Wachstums kann über die Wachstumsrate getroffen werden, die den Zuwachs pro Intervall der vorliegenden Zeitreihe angibt. Die entsprechende Formel lautet die Differenz hoch des Kehrwerts der Anzahl der Intervalle minus 1. Siehe dazu die Erklärung in Berechnung einer Wachstumsrate.

Wir können jetzt den Datenbereich auch entsprechend sortieren – dazu den Cursor in den Datenbereich setzen und auf/absteigend nach der gewünschten Spalte sortieren (Spalten J, K, L liefern die gleiche Reihenfolge, da sie alle die prozentuelle Veränderung widerspiegeln. Interessant ist der Vergleich zur Sortierung nach Spalte I mit den absoluten Zahlen).

f-wachstumsrate

Eine Gruppierung der Bezirke innerhalb bzw. außerhalb des Gürtels liefert die Erkenntnis, dass das hauptsächliche Wachstums Wiens seit 2001 in den äußeren Bezirken erfolgt ist. Innerhalb des Gürtels ist kein Bezirk mit mehr als 10% gewachsen, außerhalb des Gürtels sind nur wenige Bezirke (13., 18., 19.) unterhalb von 10% gewachsen.

g-gruppierung-guertel

Für eine Visualisierung der Daten zur prozentuellen Veränderung von 2001 auf 2013 für alle Bezirke braucht es im Tool Chartbuilder eine Umkehrung der Spalten und Zeilen. Das kann über die Funktion “transpose” einfach gelöst werden.

h-transpose

Die Daten werden dann via Copy&Paste in Chartbuilder einfgefügt – und ein einfaches aber aussagekräftiges Chart wie dieses kann erstellt werden.
Bezirke-Bev-lkerungswachstum-Relativ-2001-2013_chartbuilder

 

Weiterführende Links:

Charming Charting

Ein Beispiel für einfache Visualisierungsmöglichkeiten durch ein Chart. Aus einer eher spröden Tabelle wie z.B. dieser:
wien-stats-spreadsheet

https://www.wien.gv.at/statistik/wirtschaft/tabellen/ankuenfte-laender-zr.html

kann sehr einfach ein Chart erzeugt werden, das einen bestimmten Aspekt herausarbeitet. Entwicklungen wie z.B. der Anstieg von Gästen aus Asien und Amerika sind auf einen Blick erkennbar (not exactly breaking news, but it’s just an example).

 

 

Herkunft Gäste in Wien 2007-2013-sterreich-Nachbarl-nder-Europ-ische-L-nder-Amerika-Asien-Sonstige_chartbuilder

Die Erstellung des Charts erfolgte über Chartbuilder das Chartframework von Quartz. Unter können Charts für unseren Kurs erstellt werden: http://joechler.info/chartbuilder/Chartbuilder-master/
wien-stats-transpose

Einzige Voraussetzung sind die entsprechenden Daten in Spalten und Reihen, die über Copy-Paste eingefügt werden. Dazu braucht es einige grundlegende Skills in der Tabellenkalkulation, Schwerpunkt unseres Workshops am 22.11.

 

 

Infographics showcase: dadaviz

dadaviz.com is a neverending source of inspiration – showing the best of today’s infographics, high frequency, tremendous resource, must see!

a sample infographic from washingtonpost.com:
where-you-can-both-smoke-weed-and-get-a-same-sex-m-1415281089.65-7548633

US Midterm Elections 2014: The winner is – Mashable!

Visualising data in real time is certainly also a question of choosing the right tools. Not always do the tools have to be overly complicated. Recently the Lego Senate easily won the media competion for smart reporting on the 2014 midterm elections in the US. The shift from a Senate with a Democratic to a Republican majority is visualised via blue and red lego bricks. Yellow bricks are undecided and the white brick signals a delayed decision.

Lego Senate Mashable

(Very accessible and easy to understand visualisation, presented in a beautiful longform, and of course also on twitter #legosenate)

making of:

Historic infographic: Napoleon’s army in Russia

Charles-Joseph-Minard-Napoleons-March-2

When it comes to tragic military events, few would rate worse than the French invasion of Russia in 1812. A disastrous combination of situations resulted in the once powerful Grande Armée being reduced from nearly half a million strong, to a shockingly small 10,000 following their retreat. This vintage information graphic detailing the event was created by Charles Joseph Minard in 1869. It is an early masterpiece of good design.

Vintage Infographic: Napoleon’s Tragic Russian March