Tackelberz

Tackelberz header image 2

Grundlagen des Text Mining… und Stärken und Schwächen des PASW Modelers Text Mining

Dezember 28th, 2009 · Keine Kommentare

Beim Text Mining (TM) werden aus Textdokumenten Schlüsselbegriffe extrahiert, die eine Aussagekraft bezüglich der Semantik des Textes aufweisen. Für die Extraktion von Schlüsselbegriffen aus Texten werden typischerweise die folgenden Verfahren angewendet (vgl. Heyer et al 2006, 273):

• Linguistische Vorverarbeitung
• statistische und musterbasierte Text-Mining-Verfahren.

Linguistische Vorverarbeitung
Im PASW Modeler Text Mining (im folgenden nur noch Text Miner) sind linguistischen Ressourcen im Lieferumfang als Vorlagen und Bibliotheken und zusammengestellte Ressourcen enthalten. Bibliotheken bestehen aus Wortlisten und weiteren Informationen, die eingesetzt werden, um die Extraktion abzustimmen oder zu spezifizieren. Diese Ressourcen umfassen ein allgemeines Wörterbuch, in dem eine Liste von Grundformen mit einem Code für die Wortart (Part of Speech) enthalten ist (Nomen, Verb, Adjektiv, Partizip, Koordinator, Determinator oder Präposition) (vgl. SPSS 2006, 7). In der linguistischen Vorverarbeitung werden Wortformen durch eine Grundformreduktion in ihre Grundformen überführt, da im Text die Wortformen meist in gebeugter Form auftreten. Ebenso müssen Synonyme angeglichen werden (vgl. Heyer et al 2006, 274).
Der Text Miner beinhaltet umfassende Substitutionswörterbücher (Synonyme und optionale Elemente) sowie Ausschlusswörterbücher, außerdem können Schreibfehler bis zu einem gewissen Grad korrigiert werden (vgl. SPSS 2006, 7). Leider können die zusammengestellten Ressourcen im SPSS Text Miner nicht angezeigt oder bearbeitet werden. Das macht das Programm stückweise zu einer Art „Black Box“.

Statistische Text-Mining-Verfahren
Die Differenzanalyse
Vergleicht man die relativen Häufigkeiten sämtlicher Wortformen eines Textes den man analysieren möchte mit denen in einem großen allgemeinsprachlichen Vergleichskorpus, so werden diejenigen Wortformen, deren relative Häufigkeit im Analysetext signifikant größer ist als im Referenzkorpus, mit hoher Wahrscheinlichkeit Schlüsselbegriffe sein. Dasselbe gilt für Wortformen, die im Analysetext auftreten, nicht aber im Vergleichskorpus (vgl. Heyer et al 2006, 95f). Der Text Miner kann leider keine komplette Differenzanalyse durchführen. Was er leistet ist, dass er einzelne Wörter (Uniterms), die nicht in den zusammengestellten Ressourcen enthalten sind, als Kandidaten für die Extrahierung betrachtet (vgl. SPSS 2006, 7). Die zusammengestellten Ressourcen dienen hier somit als Referenzkorpus.

Musterbasierte Text-Mining-Verfahren
Schlüsselbegriffe eines Textes sind oftmals Fachausdrücke. Die Kenntnis der Fachterminologie eines Faches oder einer Anwendung ist oft der Schlüssel für ein Verständnis des Faches oder der Anwendung selber. Die computergestützte Erkennung der Fachausdrücke eines Faches ist daher eine wichtige Anwendung des Text Mining (vgl. Heyer et al 2006, 272f). Der Begriff „Fachausdrücke“ ist hier ein sehr viel weiterer Begriff, als man annehmen könnte. So werden relevante Einzelwörter wie beispielsweise „Wahl“ oder „Frieden“ sowie Wortzusammensetzungen wie beispielsweise „Präsidentschaftswahl“, „Wahl des Präsidenten“ oder „Friedensverträge“ als Fachausdrücke bezeichnet (vgl. SPSS 2006, 29). Die Fachausdrücke bestimmter Fachgebiete haben meist eine morphologisch und syntaktisch charakteristische Form, welche sich für ihre Identifikation nutzen lässt:
Einerseits sind fast alle Fachausdrücke Nominalphrasen (d.h. sie bestehen entweder aus einem einzelnen Substantiv oder einem Substantiv mit Modifikatoren). Um solche Strukturen zu finden, kann man eine syntaktische Analyse des betroffenen Textes vornehmen und bestimmte Nominalphrasen isolieren. Einfacher noch ist die Suche nach so genannten POS-Mustern (Part-of-Speech-Mustern), d.h. nach Abfolge von Wortformen mit bestimmter Wortart. Mit Abkürzungen NN für Nomen und ADJA für Adjektive erhält man die folgenden nützlichen Muster:
NN
ADJA NN
NN NN…
Dies ist zwar ein theoretisch zu einfacher Ansatz, da z.B. zwei benachbarte Nomina keine Nominal-phrasen bilden müssen (z.B. „Er unterrichtet in Heilbronn Statistik“), liefert aber in der Praxis sehr gute Ergebnisse und lässt sich unter Berücksichtigung der Kookkurrenzbeziehung zwischen zwei Wortformen (linker bzw. rechter Nachbar) effizient implementieren (vgl. Heyer et al 2006, 275).
Der Text Miner ermittelt für die Extraktion Kandidaten, die aus zusammengesetzten Wörtern bestehen (Multiterms), auf der Grundlage von hartkodierten oder dynamischen POS-Mustern. Es sind rund 30 Muster vorhanden und die maximale Mustergröße liegt bei sechs Komponenten (vgl. SPSS 2006, 7). Ähnliche Fachausdrücke werden dann von dem Text Miner unter einem übergeordneten Fachausdruck zusammengefasst, der als Konzept bezeichnet wird (vgl. SPSS 2006, 29).

Beispiel:
Folgend soll ein Beispieltext gezeigt werden und danach die vom Text Miner extrahierten Schlüsselbegriffe (Konzepte). Bei dem Text handelt es sich um einen Blogpost des Blogs „Spreeblick“ veröffentlicht am 1. September 2008 um 22.22 Uhr.

Text:
Man kann sich in Deutschland völlig unbedrängt ein Bild des Konfliktes zwischen Georgien und Russland bilden. Wenn man kenntnisfrei wie ich versucht, etwas zu erfahren, ist der erste Eindruck, dass gerade im Internet die Konfliktlinien fein säuberlich nachgezeichnet und nachgelebt werden. Eher links orientierte Blogger sehen Russland als Opfer einer amerikanischen Intrige, auf konservativer Seite sieht man sich darin bestätigt, dass Russland nur die alte Sowjetunion mit neuem Lack ist. Ich bin bei solchen internationalen Konflikten immer erstaunt, wie viele Experten es gibt in der deutschen (und noch mehr natürlich in der amerikanischen) Blogosphäre. Da haben plötzlich alle Politikwissenschaften studiert, mehrere Jahre sowohl in Moskau als auch in Tiflis gelebt, mit tschetschenischen Hirten Mau-Mau gespielt und aus einem Topf mit flüssiger Weisheit mit großen Löffeln gefuttert. Wie betulich dagegen die alten Medien. Dort darf jeder seine Meinung sagen, demokratische Führer beider Länder duellieren sich aber Bande, amerikanische Griesgrame wetteifern mit russischen Griesgramen um die versteinerste Miene. Und dann heißt es auf einmal: Halt, alles Lüge! Die ARD zensiert (die ARD hatte ein Interview von Thomas Roth mit Putin gerade um die Passagen gekürzt, in denen Putin die russische Position erläutert und den Westen attackiert). Wenn ich jetzt sage, warum ich nicht glaube, dass die ARD zensiert, werden viele lachen: Ich glaube nicht, dass die ARD zensiert, weil es nicht erlaubt ist. Klar, Schleichwerbung ist ja auch nicht erlaubt, aber ich glaube, dass die Begriffe Schleichwerbung und Zensur unterschiedliche Hebel in öffentlich-rechtlichen Journalistenhirnen in Bewegung setzen. Schleichwerbung, so erkläre ich mir das, wird als eine Art Notwehr gegen die Privaten angesehen. Aber Zensur: Das ist dann doch ein anderer Sport. Wer könnte es schöner sagen als Felix Schwenzel, wie stark muss man unter Verfolgungswahn leiden, einen Chaotenhaufen wie die Tagesschau-Redaktion einer durchorchestrierten Informationsverschleierung zu verdächtigen? Wenn man das, was die ARD mit der Kürzung des Putin-Interviews gemacht hat, Zensur nennt, woher nimmt man dann noch Worte für die Ermordung des kremlkritischen Bloggers aus Inguschetien durch russische Polizisten? Der Interviewer Thomas Roth äußert sich im Tagesschau-Blog folgendermaßen: Ich habe zugelassen, dass das Interview durch mehrere russische Sender begleitet wird und nach einer vereinbarten Sperrfrist (20:00 Uhr Ortszeit) nach eigener Entscheidung veröffentlicht werden kann. Die russischen Sender haben das in sehr unterschiedlichen Längen getan (von 5 bis zu rund 40 Minuten). Einige haben nur das aus ihrer Sicht wichtigste veröffentlicht. Verpflichtet waren sie nur zur Quellenangabe: Ein Interview der ARD, Erstes Deutsches Fernsehen. Nur zum Verständnis: Hätte die ARD Interesse daran gehabt, irgendetwas nicht zu veröffentlichen, hätten wir uns gar nicht erst auf solche Bedingungen eingelassen. Also nichts durcheinander bringen! Das ist glaubhaft. Als Blogger muss man sehr genau abwägen, geradezu taktieren, ob man die stärksten Worte wählt in so einem Zusammenhang. Hätte der Spiegelfechter geschrieben: Die ARD hat unsauber gearbeitet und sich in Manipulationsverdacht gebracht, so wäre das korrekter gewesen, aber unter Umständen hätte dann niemand hingehört und Roth hätte sich nicht gerechtfertigt. Auf der anderen Seite stehen die oben angeführten Bedenken. So oder so gebührt Jens Berger Respekt für die aufklärerische Arbeit. Wo man sich aber von Taktik fernhalten sollte, ist in der Frage, für wen man Partei ergreift. Das ist nicht viel anders als bei einer Prügelei, deren Zeuge man wird – man wägt nicht kurz ab, für wen man ist, und prügelt dann mit. Man schlichtet. Und an diesem Schlichtungsprozess kann man sich dann auch als unwissender Blogger beteiligen.

Hier die vom Text Miner extrahierten Schlüsselbegriffe, nach ihrer globalen Häufigkeit geordnet:

ard ; glaube ; zensur ; russland ; worte ; putin : russische sender ; interview ; schleichwerbung ; hebel; prügelei; bedingungen; tagesschau-blog; tschetschenischen hirten; russischen griesgramen; wetteifern; spiegelfechter; demokratische führer; weisheit; unwissender blogger; lack; verfolgungswahn; journalistenhirnen; art notwehr; amerikanischen intrige; deutsches fernsehen; orientierte blogger; ortszeit; meinung; medien; zusammenhang; georgien; moskau; sowjetunion; kürzung des putin-interviews; quellenangabe; politikwissenschaften; felix schwenzel; unbedrängt; eindruck; aufklärerische arbeit; russische polizisten; frage; taktik; fernhalten; sicht; blogosphäre; experten; kenntnisfrei; chaotenhaufen; ermordung des kremlkritischen bloggers; mau-mau; partei; deutschland; begriffe; schleichwerbung; länder; manipulationsverdacht; lüge; russische position; verständnis; interviewer thomas roth; internationalen konflikten; zeuge; inguschetien; jens berger respekt; bild des konfliktes; opfer; konfliktlinien; topf; bande; vereinbarten sperrfrist; verdächtigen; bewegung; interesse; internet; tiflis; durchorchestrierten; blogger; interview von thomas roth; entscheidung; tagesschau-redaktion; schlichtungsprozess, versteinerste miene

Es zeigt sich, dass einige Begriffe in dieser Sammlung weniger relevant erscheinen. Es ist aber wichtig zu verstehen, dass die Extraktion der Schlüsselbegriffe einen iterativen Prozess darstellt (vgl. Heyer et al 2006, 274). Nach der ersten Extraktion müssen die Ergebnisse überprüft werden und die Einstellungen in den lokalen Bibliotheken – diese können vom Nutzer verändert werden – überarbeitet werden. Hier gibt es verschiedene Möglichkeiten der Verfeinerung: nicht erkannte Synonyme, bedeutungslose Konzepte, falsch erkannte Übereinstimmungen, nicht extrahierte Konzepte usw. (vgl. SPSS 2006, 158f).

Literatur:

- Heyer G, Quasthoff U, Wittig T. 2006. Text Mining: Wissensrohstoff Text. Konzepte, Algorithmen, Ergebnisse. Herdecke, Bochum: W3L-Verlag
- SPSS. 2006. Text Mining für Clementine 12.0 – Benutzerhandbuch

Tags: Text Mining

0 Antworten bis jetzt ↓

  • Es gibt keine Kommentare bis jetzt...Trete Sachen weg, die vom Formular runterfallen.

Hinterlasse ein Kommentar