diff --git a/www/cats b/www/cats new file mode 100644 index 0000000..4e5a759 --- /dev/null +++ b/www/cats @@ -0,0 +1,20 @@ + 433 Buitenland + 358 Binnenland + 280 system:vrtnieuws/brands/radio-2 + 170 Regionaal nieuws + 90 Economie + 88 Politiek + 45 Cultuur & Media + 42 system:vrtnieuws/brands/radio-1 + 17 Tech + 7 Koningshuis + 7 Opmerkelijk + 7 system:vrtnieuws/brands/sporza + 5 Voetbal + 1 Atletiek + 1 Handbal + 1 Nieuws + 1 Sport algemeen + 1 system:vrtnieuws/brands/stubru + 1 Tennis + 0 diff --git a/www/cats.table b/www/cats.table new file mode 100644 index 0000000..cea9fd7 --- /dev/null +++ b/www/cats.table @@ -0,0 +1,25 @@ +
+

cats

+ + + + + + + + + + + + + + + + + + + + + +
Buitenland
Binnenland
system:vrtnieuws/brands/radio-2
Regionaal nieuws
Economie
Politiek
Cultuur & Media
system:vrtnieuws/brands/radio-1
Tech
Koningshuis
Opmerkelijk
system:vrtnieuws/brands/sporza
Voetbal
Atletiek
Handbal
Nieuws
Sport algemeen
system:vrtnieuws/brands/stubru
Tennis
+
diff --git a/www/favicon.ico b/www/favicon.ico new file mode 100644 index 0000000..4cd7dae Binary files /dev/null and b/www/favicon.ico differ diff --git a/www/gettags.sh b/www/gettags.sh new file mode 100755 index 0000000..e61c95b --- /dev/null +++ b/www/gettags.sh @@ -0,0 +1,57 @@ +#!/bin/bash + +unset CDPATH +PATH=/net/corpora/nlnieuws/bin:/net/aps/bin:$PATH +export TZ=Europe/Amsterdam + +item=tag +if [ "$1" = "cat" ] +then + item=cat + shift +fi + +if [ "$1" = "" ] +then + ds=`ISOWeek -7` +else + case "$1" in + 2[0-9][0-9][0-9]-[0-5][0-9]) + ds=$1 + ;; + *) + echo INVALID + exit 1 + ;; + esac +fi + +w=4 + +cd /net/corpora/nlnieuws + +collect() { + declare -gA counts + declare -i val + count="$1" + shift + word="$*" + val=${counts["$word"]} + counts["$word"]=$(( $val + $count )) +} + +for file in $( find . -name $ds-$w.$item.txt -or $( week2files $ds $w | sed -e "s/data.dz/$item.txt/g" ) ) +do + IFS=$'\n' + for line in $(cat $file) + do + IFS=' '$'\t'$'\n' + collect $line + done +done + +for i in "${!counts[@]}" +do + printf "%8d\t%s\n" ${counts[$i]} "$i" + #echo -e "${counts[$i]}\t$i" +done | sort -f -k 2 | sort -n -r -k 1,1 -s diff --git a/www/index.html b/www/index.html new file mode 100644 index 0000000..9884a02 --- /dev/null +++ b/www/index.html @@ -0,0 +1,698 @@ + + + + 2026 week 13 + + + + + + +
+

2026 week 13

+
+
+
+

nieuwe namen

+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
Antonelli
Jill Helena
Coldeweijer
Sef
Ten Damme
PFAS
Meloni
Bouchez
Tata Steel
Kampschreur
Kempi
Keuken
Larijani
Redzepi
Jansa
Sabalenka
Kharg
Mathieu van der Poel
Ronnie Flex
Theo Francken
+
+
+

nieuwe woorden

+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
Houthi's
energiecentrales
interlandperiode
energiefaciliteiten
energiecontract
pensioenhervorming
fatbike
gasinstallaties
maximumprijs
nepagenten
repatriëringsvluchten
schademeldingen
werkcultuur
ex-partner
Israëlisch-Amerikaanse
megawattuur
energiekosten
plofkraken
reboot
steunbewijs
+
+
+

personen

+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
Trump
Donald Trump
Verstappen
Ali B
Mette-Marit
Jetten
Orbán
Epstein
Høiby
Zelensky
Máxima
Khamenei
Ali Khamenei
Willem-Alexander
Van der Poel
Klaver
Koeman
Cruijff
Max Verstappen
Poetin
+
+
+

locaties

+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
Iran
Nederland
VS
Israël
Midden-Oosten
Amsterdam
Oekraïne
Verenigde Staten
Rusland
Europa
België
China
Straat van Hormuz
Brussel
Rotterdam
Libanon
Den Haag
Frankrijk
Teheran
Duitsland
+
+
+

organisaties

+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
ANP
Openbaar Ministerie
Ajax
EU
PSV
defensie
Hezbollah
Feyenoord
D66
VVD
Instagram
NU.nl
Tweede Kamer
CDA
Oranje
AI
AZ
kamer
justitie
NEC
+
+
+

andere namen

+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
Eredivisie
Oscar
X
Champions League
VRT NWS
Formule 1
Grand Prix
Premier League
Instagram
The New York Times
Facebook
X.
Spelen
WhatsApp
Paralympische Spelen
Olympische Spelen
Tweede Wereldoorlog
Parijs-Nice
NRC
De Telegraaf
+
+ +
+

cats

+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
Buitenland
Binnenland
system:vrtnieuws/brands/radio-2
Regionaal nieuws
Economie
Politiek
Cultuur & Media
system:vrtnieuws/brands/radio-1
Tech
Koningshuis
Opmerkelijk
system:vrtnieuws/brands/sporza
Voetbal
Atletiek
Handbal
Nieuws
Sport algemeen
system:vrtnieuws/brands/stubru
Tennis
 
+
+
+

tags

+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
Entertainment
Buitenland
Zakelijk
Landelijk
voetbal
Politiek
Sport
Voetbal
Koningshuis
economie
binnenland
Justitie
buitenland
Binnenland
achterklap
Iran
Artikelen
tweakers
muziek
Midden-Oosten
+
+
+ + diff --git a/www/locaties-2026-13-4.table b/www/locaties-2026-13-4.table new file mode 100644 index 0000000..cbe52f9 --- /dev/null +++ b/www/locaties-2026-13-4.table @@ -0,0 +1,25 @@ +
locaties + + + + + + + + + + + + + + + + + + + + + +
Iran
Nederland
VS
Israël
Midden-Oosten
Amsterdam
Oekraïne
Verenigde Staten
Rusland
Europa
België
China
Straat van Hormuz
Brussel
Rotterdam
Libanon
Den Haag
Frankrijk
Teheran
Duitsland
+
diff --git a/www/nieuw-namen-2026-13-4.t20.table b/www/nieuw-namen-2026-13-4.t20.table new file mode 100644 index 0000000..ab1c628 --- /dev/null +++ b/www/nieuw-namen-2026-13-4.t20.table @@ -0,0 +1,25 @@ +
nieuwe namen + + + + + + + + + + + + + + + + + + + + + +
Antonelli
Jill Helena
Coldeweijer
Sef
Ten Damme
PFAS
Meloni
Bouchez
Tata Steel
Kampschreur
Kempi
Keuken
Larijani
Redzepi
Jansa
Sabalenka
Kharg
Mathieu van der Poel
Ronnie Flex
Theo Francken
+
diff --git a/www/nieuw-woorden-2026-13-4.t20.table b/www/nieuw-woorden-2026-13-4.t20.table new file mode 100644 index 0000000..eb6952f --- /dev/null +++ b/www/nieuw-woorden-2026-13-4.t20.table @@ -0,0 +1,25 @@ +
nieuwe woorden + + + + + + + + + + + + + + + + + + + + + +
Houthi's
energiecentrales
interlandperiode
energiefaciliteiten
energiecontract
pensioenhervorming
fatbike
gasinstallaties
maximumprijs
nepagenten
repatriëringsvluchten
schademeldingen
werkcultuur
ex-partner
Israëlisch-Amerikaanse
megawattuur
energiekosten
plofkraken
reboot
steunbewijs
+
diff --git a/www/organisaties-2026-13-4.table b/www/organisaties-2026-13-4.table new file mode 100644 index 0000000..b01d98c --- /dev/null +++ b/www/organisaties-2026-13-4.table @@ -0,0 +1,25 @@ +
organisaties + + + + + + + + + + + + + + + + + + + + + +
ANP
Openbaar Ministerie
Ajax
EU
PSV
defensie
Hezbollah
Feyenoord
D66
VVD
Instagram
NU.nl
Tweede Kamer
CDA
Oranje
AI
AZ
kamer
justitie
NEC
+
diff --git a/www/overige-namen-2026-13-4.table b/www/overige-namen-2026-13-4.table new file mode 100644 index 0000000..eb10b87 --- /dev/null +++ b/www/overige-namen-2026-13-4.table @@ -0,0 +1,25 @@ +
andere namen + + + + + + + + + + + + + + + + + + + + + +
Eredivisie
Oscar
X
Champions League
VRT NWS
Formule 1
Grand Prix
Premier League
Instagram
The New York Times
Facebook
X.
Spelen
WhatsApp
Paralympische Spelen
Olympische Spelen
Tweede Wereldoorlog
Parijs-Nice
NRC
De Telegraaf
+
diff --git a/www/personen-2026-13-4.table b/www/personen-2026-13-4.table new file mode 100644 index 0000000..a5359e2 --- /dev/null +++ b/www/personen-2026-13-4.table @@ -0,0 +1,25 @@ +
personen + + + + + + + + + + + + + + + + + + + + + +
Trump
Donald Trump
Verstappen
Ali B
Mette-Marit
Jetten
Orbán
Epstein
Høiby
Zelensky
Máxima
Khamenei
Ali Khamenei
Willem-Alexander
Van der Poel
Klaver
Koeman
Cruijff
Max Verstappen
Poetin
+
diff --git a/www/style.css b/www/style.css new file mode 100644 index 0000000..6aa26e3 --- /dev/null +++ b/www/style.css @@ -0,0 +1,106 @@ +/* */ + +* { + box-sizing: border-box; + -webkit-box-sizing: border-box; + -moz-box-sizing: border-box; +} + +html { + font-family: 'IBM Plex Serif', serif; + font-size: 18px; +} + +body { + border: 0px; + margin: 0px; + padding: 0px; + color: black; + background-color: #fcfffc; +} + +.main { + margin: 4em 0px 8em 0px; + padding: 0.4em 0.2em; + + column-count: 4; + column-width: 22em; + + -webkit-column-gap: 0px; + -moz-column-gap: 0px; + column-gap: 0px; + + column-rule: 1px solid lightgrey; +} + +.main > div { + -webkit-column-break-inside: avoid; + -moz-column-break-inside: avoid; + -o-column-break-inside: avoid; + -ms-column-break-inside: avoid; + column-break-inside: avoid; + page-break-inside: avoid; + + /* zo moet het */ + break-inside: avoid; + + padding: 0px 1em; + margin: 0px 0.2em 4em 0.2em; + overflow-x: hidden; +} + +.footer { + text-align: center; + font-size: small; + margin-bottom: 2em; +} + +h1 { + margin-top: 4em; + text-align: center; +} + +h1, +h2 { + color: #62757f; + letter-spacing: 0.1em; + margin-top: 2em; +} +h1 { + font-size: xx-large; + font-weight: 200; +} +h2 { + margin-top: 0px; + font-size: large; + font-weight: 400; +} + +a { + text-decoration: none; + color: #0000ee; +} + +a:hover { + text-decoration: underline; +} + +table { + border-collapse: collapse; + border-spacing: 2em; +} + +td { + padding: 0.2em 0.5em 0.2em 0px; + vertical-align: center; + white-space: nowrap; +} + +tr > td:first-child { + width: 100px; +} +td > div { + height: 10px; + margin-top: auto; + background-color: #62757f; +} diff --git a/www/tags b/www/tags new file mode 100644 index 0000000..e420fe4 --- /dev/null +++ b/www/tags @@ -0,0 +1 @@ +INVALID diff --git a/www/tags.table b/www/tags.table new file mode 100644 index 0000000..36afe02 --- /dev/null +++ b/www/tags.table @@ -0,0 +1,25 @@ +
+

tags

+ + + + + + + + + + + + + + + + + + + + + +
Entertainment
Buitenland
Zakelijk
Landelijk
voetbal
Politiek
Sport
Voetbal
Koningshuis
economie
binnenland
Justitie
buitenland
Binnenland
achterklap
Iran
Artikelen
tweakers
muziek
Midden-Oosten
+
diff --git a/www/top2html.py b/www/top2html.py new file mode 100755 index 0000000..3b61044 --- /dev/null +++ b/www/top2html.py @@ -0,0 +1,43 @@ +#!/usr/bin/env python3 + +import html, sys + +titles = { + 'nieuw-namen': 'nieuwe namen', + 'nieuw-woorden': 'nieuwe woorden', + 'locaties':'locaties', + 'personen':'personen', + 'organisaties':'organisaties', + 'overige-namen':'andere namen', + 'nieuw-adjww':'nieuwe adjectieven, deelwoorden en werkwoorden' +} + +title = sys.argv[1] +for key, value in titles.items(): + if sys.argv[1].find(key) >= 0: + title = value + break + +sys.stdout.buffer.write('''
+

{}

+ +'''.format(html.escape(title)).encode('utf-8')) + +with open(sys.argv[1], 'rt', encoding='utf-8') as fp: + lineno = 0 + mx = 0 + for line in fp: + line = line.strip() + aa = line.split('\t') + for i in range(1, len(aa)): + aa[i] = html.escape(aa[i]) + v = int(aa[0]) + if lineno == 0: + mx = v + p = 100 / mx * v + sys.stdout.buffer.write('\n'.format(p, '
{}
'.join(aa[1:])).encode('utf-8')) + lineno += 1 + if lineno == 20: + break + +sys.stdout.buffer.write(b'
\n
\n')