Piwik Web-Analytics ohne IP-Speicherung

Melde gehorsamst: Das auf blog.gerozahn.de seit geraumer Zeit eingesetzte „Piwik – Open source web analytics“ speichert seit heute die IP-Adressen meiner Besucher nur noch anonymisiert – und auch alle bisher gespeicherten IPs wurden nachträglich ebenfalls erfolgreich verkürzt.

Wer die qualifizierte Fachpresse (nein, nicht Computer-Bild, vielleicht eher c’t) verfolgt, der weiß wie „Iieh-bah-bah“ es in heutiger Zeit ist, IP-Adressen zu sammeln. Klar – teilweise kann man als Benutzer eines zentral administrierten Hostings-Pakets oder eines Managed Servers beim Provider seines Vertrauens gar nicht anders, denn die IPs wandern dort ja in der Regel brav in die Access Logs. Aber angesichts der heuer neu hochkochenden Diskussion hat auch dort bereits hier und da ein Umdenken eingesetzt, und einige Provider anonymisieren die Zugriffe bereits – d.h. packen keine vollständigen IP-Adressen mehr in die Logs.

Zur Erinnerung: Alles hängt ab von der Frage, ob IP-Adressen personenbezogene Daten sind oder nicht, in letzterem Fall also lediglich umständlich personenbeziehbare Daten.

Die aktuelle Rechtssprechung deutet in erstere Richtung, d.h. sie seien personenbezogen – was vor allem bei festen IPs in Universitäten oder anderen Einrichtungen absolut nicht wegzudiskutieren ist. Bei täglich wechselnden dynamischen IPs beim DSL-Connect kann man darüber streiten, ob „personenbezogen“ schon gegeben ist, wenn man im Ernstfall erst den Zugangsprovider zur Nennung des jeweiligen IP-Inhabers zu gegebener Zeit überreden muss. Nichtsdestoweniger: Die Gerichte entscheiden momentan vermehrt derart, dass IPs in jedem Fall personenbezogene Daten sind. Punkt, aus – damit müssen wir nun leben.

Wer als Betreiber einer Website nun Web Analytics betreibt, also Tracker-Code in die Webseite einbettet, um mehr über seine Besucher herauszubekommen (beispielsweise so etwas Lapidares wie Browserversion und Bildschirmgröße, gern aber auch Tiefergehendes wie Nationalität, Einstiegsseite, Verweildauer, angeklickte Links, Zugriffstrail und hassenichgesehn), der kommt dadurch allzu leicht in Teufels Küche. Vor allem, wenn er dazu Google Analytics einsetzt.

Denn Google Analytics speichert IPs nicht nur – nein, diese werden sogar „außer Landes“ geschafft – und zwar in die USA, die vor dem EU-Recht datenschutzrechtlich als Schurkenstaat angesehen werden müssen. Googles „Don’t be evil“ hin oder her – aber dieses gebetsmühlenartig vorgetragene Mantra hilft einem mit Hinweis auf das Bundesdatenschutzgesetz (BDSG) abgemahnten deutschen Website-Betreiber leider herzlich wenig.

Erste Idee: Verabschieden wir uns doch von Google Analytics und installieren wir ein Analyse-Tool direkt auf dem eigenen Server. Das Mittel der Wahl, weil nicht nur kostenlos, sondern sogar OpenSource, ist hier ausdrücklich oben genanntes Piwik. Das ist zwar nicht ganz so schlau wie Google Analytics – aber hochentwickelt genug für die meisten drängenden Fragen, was an der eigenen Website „Hot“ oder „not“ ist – und vor allem, wieso. Dummerweise sammelt Piwik ebenfalls IPs – und macht in der Basiskonfiguration auch keinerlei Anstalten, diese entweder zu löschen oder zumindest zu anonymisieren.

Als brauchbare IP-Anonymisierung ist akzeptabel, wenn aus der üblichen 111.222.333.444 die hinteren beiden Nummernblöche gestrichen werden. Aus dem resultierenden 111.222.0.0 lässt sich weiterhin der Zugangsprovider und die grobe geographische Herkunft des Besuchers ermitteln. Und mit der Browserkonfiguration plus gesetztem Tracking-Cookie lassen sich wiederkehrende Besucher trotzdem hinreichend gut wiedererkennen.

Genau dieser Idee hat sich Martin Gamnitzer verschrieben. Er hat ein erschreckend simples Piwik-Plugin entwickelt, das justament o.a. IP-Verkürzung realisiert. Dem Vernehmen nach wird das Plugin in erweiterter Form sogar im Lieferumfang der kommenden Piwik-Version 0.55 enthalten sein.

Wer wie ich auf dieser Website (und von Berufs wegen auch bei einem Sack voll anderer Portale) noch die aktuelle Piwik-Version 0.54 verwendet, geht wie folgt vor:

  1. Plugin herunterladen
  2. Ins Plugin-Verzeichnis ./piwik/plugins auspacken
  3. Im Piwik-Backend aktivieren
  4. Fertig

Oder nicht?

Das ist leider nur die halbe Miete. Korrekt: Alle neuen Besucher werden ab sofort nur noch mit verkürzter und damit wirksam anonymisierter IP geloggt.

Dummerweise hilft das rein gar nichts gegen die bereits in der Datenbank befindlichen Logs. Denn bis zur Aktivierung des Plugins hat Piwik ja munter IPs gesammelt – und denkt auch gar nicht daran, diese nachträglich zu anonymisieren.

Wer Zugriff auf seine Datenbank hat, z.B. per phpMyAdmin, sollte also unbedingt die gesammelten IPs nachträglich anonymisieren. Da die IPs freundlicherweise nicht in der ASCII-Schreibweise mit den Punkten, sondern vielmehr als Vier-Byte-BIGINT-Ganzzahl gespeichert sind, hilft eine einzige MySQL-Anweisung (dabei ggf. das Prefix „piwik_“ an die eigene Installation anpassen):

UPDATE piwik_log_visit
SET location_ip=(location_ip >> 16 << 16)
WHERE 1

Denn „>> 16“ verschiebt die beiden höhersignifikanten Bytes nach rechts und schneidet dabei die beiden niedrigersignifikanten Bytes ab. Aus „111.222.333.444“ wird also „0.0.111.222“.

„<< 16“ zieht anschließend die beiden nun niedrigersignifikanten Bytes wieder an ihre ursprüngliche Stelle und zieht 16 blitzeblanke Null-Bits nach. Aus „0.0.111.222“ wird folglich „111.222.0.0“.

Fertig, abputzen!

2 Kommentare.

  1. Fehler im System - trackback on 24. August 2011 um 13:19

Trackbacks und Pingbacks: