aufgabe_4
index
sourcecode/aufgabe_4.py
sourcecode/prettycode/aufgabe_4.html

#-*- coding: UTF-8 -*-
#
# Aufgabe 4: Diversity
# Author: Matthias Rebel, 731220

 
Modules
       
aufgabe_X_ngramclass
os
re

 
Functions
       
countParaFreq(inputString)
zählt: in wievielen Paragraphen das Wort vorkommt
countWFreq(tokens)
berechnet die TermFrequenz = WortFrequenz durch Anzahl der Wörter des Textes
sz_replace(string)
löscht xml-tags und säubert die Satzzeichen im Input für korrektes split()

 
Data
        folder = 'korpus/'
list_of_files = ['ep-03-09-04-368kb.txt', 'ep-99-09-13-152kb.txt', 'text-8kb.txt']

 
Demonstration
        localhost:sourcecode matthiasrebel$ python aufgabe_4.py
['ep-03-09-04-368kb.txt', 'ep-99-09-13-152kb.txt', 'text-8kb.txt']
starting analysis ...
for file: ep-03-09-04-368kb.txt
state: step0 completed!
state: step1 completed!
state: step2 completed!
for file: ep-99-09-13-152kb.txt
state: step0 completed!
state: step1 completed!
state: step2 completed!
for file: text-8kb.txt
state: step0 completed!
state: step1 completed!
state: step2 completed!
type     context_diversity     paragraph_diversity
pluralismus     2.7276694792     1.81844631946
entwicklungsprojekte     0.181844631946     1.81844631946
abgehalten     0.304023794897     3.04023794897
unterwerfung     0.181844631946     1.81844631946
inhaftierten     0.363689263893     1.81844631946
bananenrepubliken     0.181844631946     1.81844631946
verweigerer     0.181844631946     1.81844631946
agrarhandel     0.181844631946     1.81844631946
dienste     0.66771305879     2.22571019597
inhaftierter     0.181844631946     1.81844631946
...
number of types: 10374