Tackelberz

Tackelberz header image 2

Das Datenmonster

Mai 30th, 2009 · 2 Kommentare

Dieser folgende Bericht soll für interessierte Leser darstellen auf welchen Daten meine Untersuchungen aufbauen. Ich bin bei einem Workshop in Graz auf den Dienst von Spinn3r aufmerksam geworden. Andrew S. Gordon hat mir den Tip gegeben. Ich bin ihm sehr dankbar dafür. Übrigends sollte jeder interessierte Bloganalytiker mal auf Andrews Seite vorbeischauen, der macht wirklich abgefahrenes Zeug. Nun aber zum Thema:

Was ist Spinn3r?
Spinn3r bietet an, ihren Blog-Crawler sozusagen anzuzapfen. Laut Spinn3r werden von ihrem Crawler jeden Tag über 500.000 neue Blog-Posts registriert, die man herunterladen kann. Spinner gibt an, dass sie ihren Index für den Crawler ständig aktualisieren und somit die meisten geschriebenen Posts im Web registrieren. Natürlich kann es auch für sie nur unmöglich sein wirklich alle Posts zu erfassen. Ein Vorteil von Spinn3r ist aber, dass sie sehr nützliche Dienste anbieten. Erstens haben sie Systeme entwickelt, die Spamblogs ausfindig machen und löschen. Zweitens verfügt der Crawler von Spinn3r über eine Spracherkennungsfunktion. Die gesamte Dienstleistung durch Spinn3r ist für nicht kommerzielle Forschungszwecke kostenfrei.
Um den Dienst bei Spinn3r zu nutzen, muss man einfach Abfragen an ihren Server erstellen. Mann kann beispielsweise sagen: Ich möchte jene 500 Blogs, die am 23.04.08 nach 22:00 Uhr von dem Crawler von Spinn3r gefunden wurden. Dann erhält man diese Abfrage als RSS-Feed. Da Spinn3r aber möglichst alle Blogs aufzeichnet, sind unter diesen 500 Blogs alle möglichen Sprachen vertreten. Zwar sind die Sprachen von Spinn3r angegeben, doch muss man, wenn man sich nur für Blogs einer Sprache interessiert, noch die einschlägigen Blogs herausfiltern.
Möchte man einen möglichst kompletten Zeitabschnitt aller Blogposts sammeln um dann die deutschen Blogs herauszufiltern. So muss man als erstes beispielsweise alle Posts des 3. September 2008 aus der Sammlung von Spinn3r abfragen. Die Abfragen an den Spinn3r-Server sind aber begrenzt. Man kann nur höchstens 3000 Blogposts auf einmal abfragen. Wenn man nun beispielsweise für den 1. September, 10:00 Uhr, 3000 Posts abfragt, bekommt man von Spinn3r den nächsten Abfragecode mitgeschickt, damit man eben passgenau die nächsten 3000 Posts sich besorgen kann. Somit ist gewährleistet, dass keine Posts sozusagen verloren gehen. Meine Versuche haben aber gezeigt, dass eine Erstellung einer Sammlung aller Posts für einen Tag sehr aufwendig ist. Betrachtet man nämlich nach einer Abfrage von 3000 Posts für die Blogs um 10:00 Uhr den von Spinn3r mitgeschickten Abfragecode, dann kann man erkennen, dass die nächste Abfrage die Blogs um 10:05 Uhr betrifft. Somit müsste man für einen kompletten Tag ungefähr 300 Abfragen starten. Da dies manuell nicht zu vollbringen ist (ohne verrückt zu werden), müsste man ein Programm schreiben, das in regelmäßigen Abständen (alle paar Stunden) eine Textdatei auf einen Server anlegt, oder den neuen Feed an eine bestehende Textdatei anhängt. Dann müsste man täglich oder mehrmals die Woche die Ergebnisse dort runterladen.

Was hab ich gemacht?
Da das Schreiben eines solchen Programmes wie auch die Einrichtung eines Servers mir erst mal zu aufwendig war, war ich sehr froh, als sich eine andere Möglichkeit für mich auftat um an Daten von Spinn3r zu kommen. Spinn3r hat einen Datensatz zur Verfügung gestellt, der eine komplette Aufzeichnung aller Blogs vom Zeitraum 1. August – 1. November 2008 beinhaltet. Es handelt sich hierbei um ca. 44 Millionen Blogposts und der Datensatz hat eine Größe von 142 GB. Der Datensatz wurde von der Spinn3r im Rahmen der 3rd Int’l AAAI Conference on Weblogs and Social Media (ICWSM 09) (http://www.icwsm.org/2009/index.shtml) allen Interessenten zu nicht kommerziellen Zwecken zur Verfügung gestellt.
Die Informationen die von Spinn3r zu den Blogpostst zur Verfügung gestellt werden, sind in vielen XML-Dateien enthalten. Die Informationen enthalten die genaue URL-Adresse des Blogposts, den Text des Blogposts, die Gesamtzahl der Inlinks, die Sprache usw.
Somit schlage ich mich nun mit diesem Monstrum von Datensatz herum und bin am transformieren, analysieren usw.

Wie gut ist Spinn3r für die deutsche Blogosphäre?
Als erstes interessierte mich an den Daten von Spinn3r wie gut sie die deutsche Blogosphäre abdecken. Deshalb habe ich die Inlink-Werte der Blogs im Spinn3r-Index` mit einem anderen Index verglichen werden. Hierfür eignen sich natürlich die Deutschen Bloggercharts (link). Wie jeder wissen sollte basieren die Deutschen Bloggercharts auf den Zahlen von Technorati. Somit habe ich den Spinn3r-Index mit dem Technorati-Index verglichen.
Der Vergleich der Top 25 der Deutschen Bloggercharts und dem Spinn3r-Index ist in der folgenden Abbildung zu sehen. Der Vergleich macht deutlich, dass zum Teil erhebliche Abweichungen bei den Werten von Spinn3r und Technorati bestehen. Da Spinn3r, der weitaus jüngere Index ist mit weniger indexierten Blogs als Technorati, muss die wirkliche Anzahl der Links wohl eher bei Technorati zu verorten sein. Ebenso ist zu bemerken, dass die Spracherkennung von Spinn3r nicht einwandfrei funktioniert. Der Blog „Nerdcore“ wurde als „englisch“ (en) bezeichnet und der Blog „Stefan-Niggemeier“ wurde als „nicht identifizierbar“ (U) eingestuft. Der Blog „Nerdcore“ existiert zwar im Spinn3r-Index, doch gibt es keine Feed-Adresse, somit existieren auch keine Blogposts des Blogs „Nerdcore“. Ich habe aber Kevin Burton, der Mann hinter Spinn3r, schon die Feed-Adresse von „Nerdcore“ mitgeteilt, also werden in Zukunft auch diese Posts registriert.

Blogs bedeutet in den Deutschen Bloggercharts die Gesamtanzahl der Inlinks auf den beobachteten Blog – das gleiche bedeutet die Angabe von Spinn3r. Die Werte wurden am 03.12.08. erhoben.

Blogs bedeutet in den Deutschen Bloggercharts die Gesamtanzahl der Inlinks auf den beobachteten Blog – das gleiche bedeutet die Angabe von Spinn3r. Die Werte wurden am 03.12.08. erhoben.

Ich habe Kevin auch die Abbildung zukommen lassen. Er sagte dazu, dass Spinn3r bisher noch das Hauptaugenmerk auf die englischsprachige Blogosphäre gerichtet hat und deshalb in Bezug auf die anderssprachigen Blogosphären noch Defizite aufzuweisen hat. Es gibt aber die Möglichkeit Blogs die im Spinn3r-Index nicht vertreten sind zu registrieren um somit den Spinn3r Index besser zu machen.

Als exemplarisches Beispiel, dass der Spinn3r-Index aber auch nicht so schlecht sein kann, will ich mal die Sprachenverteilung eines Tages darstellen. Beim 1. September 2008 handelt es sich insgesamt um 715777 von Spinn3r aufgezeichneten Posts. 11783 davon sind als deutsche Posts deklariert. Somit macht der Anteil der deutschen Posts am 1. September ca. 1,6 % der Gesamtmenge aus und ist somit ein bisschen größer als generell in der Literatur angegeben. Laut Sifry (Link) ist der Anteil deutschsprachiger Blogs an der gesamten Blogosphäre 1 %.

In der nächsten Abbildung ist gut zu sehen, dass Spinn3r im Vergleich zu den großen Blogmonitoring-Dienste weitaus weniger Blogs „aufzeichnet“. Trotzdem ist Spinn3r eine super Sache, denn sie geben mir den Stoff, den ich zum Arbeiten brauche. Wie sind nun aber die Ergebnisse zu interpretieren, die man anhand der Spinn3r-Daten gewinnt? Im Endeffekt ist es doch einfach so, dass man bisher keine Untersuchungen auf Basis der gesamten Blogosphäre – sei es die deutsche, amerikanische oder sonst eine – durchführen kann. Deshalb muss man sich so oder so mit einer Stichprobe zufriedengeben. Stichproben können verzerrt sein, wie eben auch die von Spinn3r. Mit dem voranschreiten der Forschung wird man irgendwann – hoffe ich – gut einschätzen können, wie sehr nun die vorliegende Stichprobe verzerrt ist oder nicht.

1111

Tags: Blogosphäre

2 Antworten bis jetzt ↓

  • 1 Tackelberz » Kookurrenznetze // Jan 15, 2010 at 04:06

    [...] Beispiel mit dem PASW Modeler Text Mining erstellt: Hier habe ich einfach einen Tag aus dem Datensatz herausgegriffen, nämlich den 02. August 2008, und habe alle deutschsprachigen Posts in das [...]

  • 2 Tackelberz » Quellen der deutschsprachigen A-List-Blogs // Apr 21, 2010 at 17:12

    [...] (oder im User Generated Content allgemein) verdichten. Um dies zu überprüfen habe ich in meinem Datensatz für einen bestimmten Zeitraum (4 Wochen im August und September 2008) alle Posts der A-List-Blogs [...]

Hinterlasse ein Kommentar