Vragen:

- hoe data range selecteren (bv alles van maart 2026)

- website met lijstjes top-N (20?)
   - nieuwe namen
     - wel of niet onderverdelen naar categorie?
   - nieuwe woorden
     - met postag
   - bestaande namen
     - personen
     - plaatsen
     - organisaties
     - misc

- queries worden nog beetje aangepast denk ik

"nieuw": nu: niet in Alpino, later (ook): niet in top-N van vorige maand.


find /net/corpora/nlnieuws/ -name '*data.dz' | xargs  alto fp:'//node[((@cat="mwu" and node[@pt="spec"]) or (@pt and @*="eigen" and not(@rel="mwp"))) and not(@his="normal") and not(@his_1="decap" or @his_1="0")]' tt:%w |sort | uniq -c |sort -nr | head -n 20

"nieuwe namen"

    445 Straat van Hormuz
    433 Jetten
    309 AI
    301 Høiby
    250 Odido
    190 Zelensky
    174 Rob Jetten
    153 VRT NWS
    134 Jeffrey Epstein
    130 Anthropic
    125 Schulting
    115 GroenLinks-PvdA
    109 TikTok
    106 Xandra Velzeboer
    106 Kyiv
    106 JA21
    104 Starmer
     98 Marius Borg Høiby
     95 Revolutionaire Garde
     94 Jens van 't Wout


"nieuwe woorden":

find /net/corpora/nlnieuws/ -name '*data.dz' | xargs  alto fp:'//node[@his and not(@rel="mwp" or @cat="mwu") and not(@his="normal" or @his="name" or @his="prefix_name" or @his_1="decap" or @his_1="0" or @his="skip" or @his="robust_skip" or @his="w_dia" or @his="wo_dia" or @his="within_word_conjunct")]' tt:%w |sort | uniq -c |sort -nr |head -n 20

    150 Trump-regering
    141 coalitieakkoord
    126 zeestraat
    122 Golfregio
    107 massastart
     96 Amerikaans-Israëlische
     92 ballistische
     90 datalek
     85 kabinet-Jetten
     82 lng
     74 droneaanval
     68 vergeldingsaanvallen
     61 tussenronde
     59 Iranoorlog
     58 vrijgave
     56 speelzand
     55 regering-Trump
     54 sprintrace
     54 ploegenachtervolging

liever met postag en lemma erbij:

find /net/corpora/nlnieuws/ -name '*data.dz' | xargs  alto fp:'//node[@his and not(@rel="mwp" or @cat="mwu") and not(@his="normal" or @his="name" or @his="prefix_name" or @his_1="decap" or @his_1="0" or @his="skip" or @his="robust_skip" or @his="w_dia" or @his="wo_dia" or @his="within_word_conjunct")]' tt:"%w \t %l \t %P" |sort | uniq -c |sort -nr |head -n 20

    150 Trump-regering 	    	  Trump_regering 	 N(soort,ev,basis,zijd,stan)
    141 coalitieakkoord 	  coalitie_akkoord 	 N(soort,ev,basis,onz,stan)
    126 zeestraat 	 	  zee_straat 	 	 N(soort,ev,basis,zijd,stan)
    121 Golfregio 	 	  Golf_regio 	 	 N(soort,ev,basis,zijd,stan)
    107 massastart 	 	  massa_start 	 	 N(soort,ev,basis,zijd,stan)
     96 Amerikaans-Israëlische 	  Amerikaans_Israëlisch	 ADJ(prenom,basis,met-e,stan)
     90 datalek 	 	  data_lek 	 	 N(soort,ev,basis,onz,stan)
     90 ballistische 	 	  ballistisch 	 	 ADJ(prenom,basis,met-e,stan)
     82 lng 	 		  lng 	 		 N(soort,ev,basis,onz,stan)
     74 droneaanval 	 	  drone_aanval 	 	 N(soort,ev,basis,zijd,stan)
     72 kabinet-Jetten 	 	  kabinet-Jetten 	 N(soort,ev,basis,onz,stan)
     66 vergeldingsaanvallen 	  vergelding_aanval 	 N(soort,mv,basis)
     61 tussenronde 	 	  tussen_ronde 	 	 N(soort,ev,basis,zijd,stan)
     59 Iranoorlog 	 	  Iran_oorlog 	 	 N(soort,ev,basis,zijd,stan)
     56 speelzand 	 	  speel_zand 	 	 N(soort,ev,basis,onz,stan)
     55 regering-Trump 	 	  regering_Trump 	 N(soort,ev,basis,zijd,stan)
     54 vrijgave 	 	  vrij_gave 	 	 N(soort,ev,basis,zijd,stan)
     54 sprintrace 	 	  sprint_race 	 	 N(soort,ev,basis,zijd,stan)
     54 ploegenachtervolging 	  ploeg_achtervolging 	 N(soort,ev,basis,zijd,stan)
     53 staatsmedia 	 	  staat_medium 	 	 N(soort,mv,basis)

"bestaande locaties":

find /net/corpora/nlnieuws/ -name '*data.dz' | xargs  alto fp:'//node[(@neclass="LOC" and @his="normal" and not(@rel="mwp")) or (@cat="mwu" and node[@pt="spec" and @neclass="LOC"] and @his="normal")]' tt:%l |sort | uniq -c |sort -nr | head -n 20


   3910 Iran
   2180 Nederland
   1929 VS
   1610 Israël
   1218 Midden-Oosten
   1128 Oekraïne
    942 Verenigde Staten
    874 Rusland
    823 Amsterdam
    776 Europa
    668 DEN HAAG
    563 België
    555 China
    445 Milaan
    429 Frankrijk
    389 Duitsland
    380 Brussel
    374 Dubai
    368 Libanon
    364 Groningen

"bestaande personen":

find /net/corpora/nlnieuws/ -name '*data.dz' | xargs  alto fp:'//node[(@neclass="PER" and @his="normal" and not(@rel="mwp")) or (@cat="mwu" and node[@pt="spec" and @neclass="PER"] and @his="normal")]' tt:%l |sort | uniq -c |sort -nr | head -n 20

   1812 Trump
    531 Donald Trump
    327 Khamenei
    309 Epstein
    267 Verstappen
    229 Andrew
    208 Máxima
    187 Ali Khamenei
    161 Orbán
    146 Trumps
    133 Mette-Marit
    133 Keijzer
    126 Willem-Alexander
    126 Kok
    122 Charles
    118 Stolz
    113 Harald
    111 Poetin
     97 Van Persie
     94 Wilders



"bestaande organisaties":

find /net/corpora/nlnieuws/ -name '*data.dz' | xargs  alto fp:'//node[(@neclass="ORG" and @his="normal" and not(@rel="mwp")) or (@cat="mwu" and node[@pt="spec" and @neclass="ORG"] and @his="normal")]' tt:%l |sort | uniq -c |sort -nr | head -n 20



   2575 ANP
    547 Ajax
    449 Instagram
    421 EU
    357 Defensie
    349 Feyenoord
    348 D66
    346 VVD
    329 PSV
    305 Hezbollah
    303 Tweede Kamer
    303 NEC
    296 AZ
    265 CDA
    263 OM
    237 NU.nl
    232 NOS
    231 BBC
    224 Kamer
    219 Openbaar Ministerie


"bestaande andere namen (boeken, films, events, .. )":

find /net/corpora/nlnieuws/ -name '*data.dz' | xargs  alto fp:'//node[(@neclass="MISC" and @his="normal" and not(@rel="mwp")) or (@cat="mwu" and node[@pt="spec" and @neclass="MISC"] and @his="normal")]' tt:%l |sort | uniq -c |sort -nr | head -n 20


    361 Spelen
    289 Olympische Spelen
    278 Eredivisie
    244 X
    222 Winterspelen
    177 Champions League
    147 Formule 1
    143 Premier League
    137 X.
    112 Oscars
    102 Grand Prix
    100 Paralympische Spelen
     90 Facebook
     78 Eurovisie Songfestival
     76 WhatsApp
     75 Parijs-Nice
     70 Tweede Wereldoorlog
     67 Oscar
     66 The New York Times
     62 AEX-index






/* deze misschien niet? */
"nieuwe adjectieven, deelwoorden en werkwoorden":

find /net/corpora/nlnieuws/ -name '*data.dz' | xargs  alto fp:'//node[@pt and @his and not(../@his="normal" or @rel="mwp" or ../@his="name" or ../@his_1="decap") and not(@his="normal" or @his="name" or @his="skip" or @his="robust_skip" or @his="w_dia" or @his="wo_dia" or @his="decap" or @his="within_word_conjunct") and not(@pt="n") ]'  tt:"%w %P"  |sort | uniq -c |sort -nr |head -n 20

     96 Amerikaans-Israëlische ADJ(prenom,basis,met-e,stan)
     90 ballistische ADJ(prenom,basis,met-e,stan)
     41 radicaal-rechtse ADJ(prenom,basis,met-e,stan)
     29 Israëlisch-Amerikaanse ADJ(prenom,basis,met-e,stan)
     27 pro-Iraanse ADJ(prenom,basis,met-e,stan)
     25 Belarussische ADJ(prenom,basis,met-e,stan)
     22 radicaal-linkse ADJ(prenom,basis,met-e,stan)
     21 Omaanse ADJ(prenom,basis,met-e,stan)
     19 pro-Palestijnse ADJ(prenom,basis,met-e,stan)
     16 partijloze ADJ(prenom,basis,met-e,stan)
     15 Eindhovense ADJ(prenom,basis,met-e,stan)
     14 cybercriminele ADJ(prenom,basis,met-e,stan)
     14 bestverkochte WW(vd,prenom,met-e)
     12 onbevestigde WW(vd,prenom,met-e)
     12 kindgebonden WW(vd,prenom,zonder)
     12 AI-gegenereerde WW(vd,prenom,met-e)
     11 toekomstbestendig ADJ(vrij,basis,zonder)
     11 omhooggegaan WW(vd,vrij,zonder)
     11 Iraans-Koerdische ADJ(prenom,basis,met-e,stan)
     11 antifascistische ADJ(prenom,basis,met-e,stan)
