Thread Texte nach Kopfzeilen sortieren und nacheinander einlesen. (4 answers)
Opened by toni at 2015-03-18 19:18

toni
 2015-03-18 19:18
#180212 #180212
User since
2015-03-18
1 Artikel
BenutzerIn
[default_avatar]
Falls meine Frage im falschen Thread landet, bitte ich sie ggf. zu verschieben.
Hallo! Ich habe ganz neu mit Perl angefangen. Ich habe viel über die verschiedensten Funktionen in perl gelesen, aber ich habe trotzdem Schwierigkeiten. Vielleicht kann mir jemand von euch helfen. Es geht um die Wirkung von Medikamenten bzw. die Effekte bei Mischkonsum von verschiedenen Medikamenten.

Zunächst brauche ich erstmal eine Funktion, die eine Sammlung von Einzeltexten öffnet. In diesen Texten wird die Wirkung der Substanzen von Endverbrauchern beschrieben. Ziel ist es herauszufinden, ob in den Beschreibungen bestimmter Medikamente einige Wörter besonders häufig auftreten. Diese Texte sind im xml-Format und befinden sich in einem Unterordner in Dokumente -> Texte_alles -> xml_raw.

Zu Beginn jedes dieser Einzeltexte gibt es eine Kopfzeile in der steht um welche(s) Medikament(e) es sich jeweils in dem Text handelt. Das sieht in jedem Einzeltext etwa so aus:
Code: (dl )
1
2
<drug>Aspirin</drug> oder
<drug>Mischkonsum von Aspirin und Alkohol</drug>


Um herauszufinden welche Wörter häufig in der Beschreibung zu bestimmten Medikamenten benutzt werden, brauche ich eine Funktion, die alle 4.000 Einzeltexte nach Medikamenten sortiert und dann die absolute Häufigkeit jedes Wortes in allen Texten zu genau diesem Medikament auflistet. Wenn es also z.B. 38 Texte über den Mischkonsum von Aspirin und Alkohol gibt, dann sollte die Funktion jeden dieser Texte nacheinander durchgehen und mir eine Liste mit den am häufigsten gebrauchten Wörtern ausgeben, etwa so:
Code: (dl )
1
2
3
27x "übel"
19x "schlecht"
16x "schwindelig" usw.

Natürlich werden auch Wörter wie "und" oder "der" usw. ausgegeben, aber die Analyse wird dann später "per Hand" gemacht.

Ich hoffe ich habe das verständlich ausgedrückt und dass mir jemand damit helfen kann. Wie gesagt, ich versuche mein Bestes selbst voranzukommen. Aber eine komplette Programmiersprache lernt sich eben nicht über Nacht.
Danke im Vorraus
Toni

modedit Editiert von pq: code-tags hinzugefügt
Last edited: 2015-03-18 19:25:37 +0100 (CET)

View full thread Texte nach Kopfzeilen sortieren und nacheinander einlesen.