nlnieuws/python/score.txt

Er zijn twee simpele formules om de "effect size" van het verschil tussen twee
relatieve frequenties te rapporteren:
 *  %DIFF = (freq_B  - freq_A) / freq_A * 100
    Percentage verschil in relatieve frequenties, makkelijk te interpreteren,
    maar niet symmetrisch.
 *  Log Ratio: log2(freq_A / freq_B)
    Een symmetrische en interpreteerbare effect size; +1 is een verdubbeling, -1
    een halvering
Twee populaire methodes om de significantie van frequentieverschillen te testen
(ook wel keyword extraction):
 *  Log-Likelihood Ratio (G^2): meest gebruikte methode in Corpus Linguistics.
    Vergelijkt observed vs expected frequency.
 *  Chi-Squared test (X^2): simpeler dan G^2, maar geeft meer false positives
    bij sparse data, werkt niet goed met lage frequenties.
Je kunt dan de gebruiker alleen de woorden met significante verschillen laten
zien (dit zijn dan de keywords). Ik heb met behulp van Claude een notebook in
elkaar gezet met een demonstratie van deze methodes:
→ Word freq comparison.ipynb


Er zijn ook geavanceerdere methodes die me te ingewikkeld lijken om te
implementeren, maar ik noem ze voor de volledigheid. In de stylometrie
is Burrow's Zeta populair, deze is bijv. beschikbaar in Stylo
https://github.com/computationalstylistics/stylo onder de oppose()
functie
https://cran.r-project.org/web/packages/stylo/stylo.pdf#Rfn.oppose.1 .
Er is ook een methode die gebruik maakt van Bayesiaanse statistiek en
frequenties uit een achtergrondcorpus, de Fightin' Words methode van
Monroe et al: https://github.com/jmhessel/FightingWords