233 lines
7.4 KiB
Plaintext
233 lines
7.4 KiB
Plaintext
Vragen:
|
|
|
|
- hoe data range selecteren (bv alles van maart 2026)
|
|
|
|
- website met lijstjes top-N (20?)
|
|
- nieuwe namen
|
|
- wel of niet onderverdelen naar categorie?
|
|
- nieuwe woorden
|
|
- met postag
|
|
- bestaande namen
|
|
- personen
|
|
- plaatsen
|
|
- organisaties
|
|
- misc
|
|
|
|
- queries worden nog beetje aangepast denk ik
|
|
|
|
"nieuw": nu: niet in Alpino, later (ook): niet in top-N van vorige maand.
|
|
|
|
|
|
find /net/corpora/nlnieuws/ -name '*data.dz' | xargs alto fp:'//node[((@cat="mwu" and node[@pt="spec"]) or (@pt and @*="eigen" and not(@rel="mwp"))) and not(@his="normal") and not(@his_1="decap" or @his_1="0")]' tt:%w |sort | uniq -c |sort -nr | head -n 20
|
|
|
|
"nieuwe namen"
|
|
|
|
445 Straat van Hormuz
|
|
433 Jetten
|
|
309 AI
|
|
301 Høiby
|
|
250 Odido
|
|
190 Zelensky
|
|
174 Rob Jetten
|
|
153 VRT NWS
|
|
134 Jeffrey Epstein
|
|
130 Anthropic
|
|
125 Schulting
|
|
115 GroenLinks-PvdA
|
|
109 TikTok
|
|
106 Xandra Velzeboer
|
|
106 Kyiv
|
|
106 JA21
|
|
104 Starmer
|
|
98 Marius Borg Høiby
|
|
95 Revolutionaire Garde
|
|
94 Jens van 't Wout
|
|
|
|
|
|
"nieuwe woorden":
|
|
|
|
find /net/corpora/nlnieuws/ -name '*data.dz' | xargs alto fp:'//node[@his and not(@rel="mwp" or @cat="mwu") and not(@his="normal" or @his="name" or @his="prefix_name" or @his_1="decap" or @his_1="0" or @his="skip" or @his="robust_skip" or @his="w_dia" or @his="wo_dia" or @his="within_word_conjunct")]' tt:%w |sort | uniq -c |sort -nr |head -n 20
|
|
|
|
150 Trump-regering
|
|
141 coalitieakkoord
|
|
126 zeestraat
|
|
122 Golfregio
|
|
107 massastart
|
|
96 Amerikaans-Israëlische
|
|
92 ballistische
|
|
90 datalek
|
|
85 kabinet-Jetten
|
|
82 lng
|
|
74 droneaanval
|
|
68 vergeldingsaanvallen
|
|
61 tussenronde
|
|
59 Iranoorlog
|
|
58 vrijgave
|
|
56 speelzand
|
|
55 regering-Trump
|
|
54 sprintrace
|
|
54 ploegenachtervolging
|
|
|
|
liever met postag en lemma erbij:
|
|
|
|
find /net/corpora/nlnieuws/ -name '*data.dz' | xargs alto fp:'//node[@his and not(@rel="mwp" or @cat="mwu") and not(@his="normal" or @his="name" or @his="prefix_name" or @his_1="decap" or @his_1="0" or @his="skip" or @his="robust_skip" or @his="w_dia" or @his="wo_dia" or @his="within_word_conjunct")]' tt:"%w \t %l \t %P" |sort | uniq -c |sort -nr |head -n 20
|
|
|
|
150 Trump-regering Trump_regering N(soort,ev,basis,zijd,stan)
|
|
141 coalitieakkoord coalitie_akkoord N(soort,ev,basis,onz,stan)
|
|
126 zeestraat zee_straat N(soort,ev,basis,zijd,stan)
|
|
121 Golfregio Golf_regio N(soort,ev,basis,zijd,stan)
|
|
107 massastart massa_start N(soort,ev,basis,zijd,stan)
|
|
96 Amerikaans-Israëlische Amerikaans_Israëlisch ADJ(prenom,basis,met-e,stan)
|
|
90 datalek data_lek N(soort,ev,basis,onz,stan)
|
|
90 ballistische ballistisch ADJ(prenom,basis,met-e,stan)
|
|
82 lng lng N(soort,ev,basis,onz,stan)
|
|
74 droneaanval drone_aanval N(soort,ev,basis,zijd,stan)
|
|
72 kabinet-Jetten kabinet-Jetten N(soort,ev,basis,onz,stan)
|
|
66 vergeldingsaanvallen vergelding_aanval N(soort,mv,basis)
|
|
61 tussenronde tussen_ronde N(soort,ev,basis,zijd,stan)
|
|
59 Iranoorlog Iran_oorlog N(soort,ev,basis,zijd,stan)
|
|
56 speelzand speel_zand N(soort,ev,basis,onz,stan)
|
|
55 regering-Trump regering_Trump N(soort,ev,basis,zijd,stan)
|
|
54 vrijgave vrij_gave N(soort,ev,basis,zijd,stan)
|
|
54 sprintrace sprint_race N(soort,ev,basis,zijd,stan)
|
|
54 ploegenachtervolging ploeg_achtervolging N(soort,ev,basis,zijd,stan)
|
|
53 staatsmedia staat_medium N(soort,mv,basis)
|
|
|
|
"bestaande locaties":
|
|
|
|
find /net/corpora/nlnieuws/ -name '*data.dz' | xargs alto fp:'//node[(@neclass="LOC" and @his="normal" and not(@rel="mwp")) or (@cat="mwu" and node[@pt="spec" and @neclass="LOC"] and @his="normal")]' tt:%l |sort | uniq -c |sort -nr | head -n 20
|
|
|
|
|
|
3910 Iran
|
|
2180 Nederland
|
|
1929 VS
|
|
1610 Israël
|
|
1218 Midden-Oosten
|
|
1128 Oekraïne
|
|
942 Verenigde Staten
|
|
874 Rusland
|
|
823 Amsterdam
|
|
776 Europa
|
|
668 DEN HAAG
|
|
563 België
|
|
555 China
|
|
445 Milaan
|
|
429 Frankrijk
|
|
389 Duitsland
|
|
380 Brussel
|
|
374 Dubai
|
|
368 Libanon
|
|
364 Groningen
|
|
|
|
"bestaande personen":
|
|
|
|
find /net/corpora/nlnieuws/ -name '*data.dz' | xargs alto fp:'//node[(@neclass="PER" and @his="normal" and not(@rel="mwp")) or (@cat="mwu" and node[@pt="spec" and @neclass="PER"] and @his="normal")]' tt:%l |sort | uniq -c |sort -nr | head -n 20
|
|
|
|
1812 Trump
|
|
531 Donald Trump
|
|
327 Khamenei
|
|
309 Epstein
|
|
267 Verstappen
|
|
229 Andrew
|
|
208 Máxima
|
|
187 Ali Khamenei
|
|
161 Orbán
|
|
146 Trumps
|
|
133 Mette-Marit
|
|
133 Keijzer
|
|
126 Willem-Alexander
|
|
126 Kok
|
|
122 Charles
|
|
118 Stolz
|
|
113 Harald
|
|
111 Poetin
|
|
97 Van Persie
|
|
94 Wilders
|
|
|
|
|
|
|
|
"bestaande organisaties":
|
|
|
|
find /net/corpora/nlnieuws/ -name '*data.dz' | xargs alto fp:'//node[(@neclass="ORG" and @his="normal" and not(@rel="mwp")) or (@cat="mwu" and node[@pt="spec" and @neclass="ORG"] and @his="normal")]' tt:%l |sort | uniq -c |sort -nr | head -n 20
|
|
|
|
|
|
|
|
2575 ANP
|
|
547 Ajax
|
|
449 Instagram
|
|
421 EU
|
|
357 Defensie
|
|
349 Feyenoord
|
|
348 D66
|
|
346 VVD
|
|
329 PSV
|
|
305 Hezbollah
|
|
303 Tweede Kamer
|
|
303 NEC
|
|
296 AZ
|
|
265 CDA
|
|
263 OM
|
|
237 NU.nl
|
|
232 NOS
|
|
231 BBC
|
|
224 Kamer
|
|
219 Openbaar Ministerie
|
|
|
|
|
|
"bestaande andere namen (boeken, films, events, .. )":
|
|
|
|
find /net/corpora/nlnieuws/ -name '*data.dz' | xargs alto fp:'//node[(@neclass="MISC" and @his="normal" and not(@rel="mwp")) or (@cat="mwu" and node[@pt="spec" and @neclass="MISC"] and @his="normal")]' tt:%l |sort | uniq -c |sort -nr | head -n 20
|
|
|
|
|
|
361 Spelen
|
|
289 Olympische Spelen
|
|
278 Eredivisie
|
|
244 X
|
|
222 Winterspelen
|
|
177 Champions League
|
|
147 Formule 1
|
|
143 Premier League
|
|
137 X.
|
|
112 Oscars
|
|
102 Grand Prix
|
|
100 Paralympische Spelen
|
|
90 Facebook
|
|
78 Eurovisie Songfestival
|
|
76 WhatsApp
|
|
75 Parijs-Nice
|
|
70 Tweede Wereldoorlog
|
|
67 Oscar
|
|
66 The New York Times
|
|
62 AEX-index
|
|
|
|
|
|
|
|
|
|
|
|
|
|
/* deze misschien niet? */
|
|
"nieuwe adjectieven, deelwoorden en werkwoorden":
|
|
|
|
find /net/corpora/nlnieuws/ -name '*data.dz' | xargs alto fp:'//node[@pt and @his and not(../@his="normal" or @rel="mwp" or ../@his="name" or ../@his_1="decap") and not(@his="normal" or @his="name" or @his="skip" or @his="robust_skip" or @his="w_dia" or @his="wo_dia" or @his="decap" or @his="within_word_conjunct") and not(@pt="n") ]' tt:"%w %P" |sort | uniq -c |sort -nr |head -n 20
|
|
|
|
96 Amerikaans-Israëlische ADJ(prenom,basis,met-e,stan)
|
|
90 ballistische ADJ(prenom,basis,met-e,stan)
|
|
41 radicaal-rechtse ADJ(prenom,basis,met-e,stan)
|
|
29 Israëlisch-Amerikaanse ADJ(prenom,basis,met-e,stan)
|
|
27 pro-Iraanse ADJ(prenom,basis,met-e,stan)
|
|
25 Belarussische ADJ(prenom,basis,met-e,stan)
|
|
22 radicaal-linkse ADJ(prenom,basis,met-e,stan)
|
|
21 Omaanse ADJ(prenom,basis,met-e,stan)
|
|
19 pro-Palestijnse ADJ(prenom,basis,met-e,stan)
|
|
16 partijloze ADJ(prenom,basis,met-e,stan)
|
|
15 Eindhovense ADJ(prenom,basis,met-e,stan)
|
|
14 cybercriminele ADJ(prenom,basis,met-e,stan)
|
|
14 bestverkochte WW(vd,prenom,met-e)
|
|
12 onbevestigde WW(vd,prenom,met-e)
|
|
12 kindgebonden WW(vd,prenom,zonder)
|
|
12 AI-gegenereerde WW(vd,prenom,met-e)
|
|
11 toekomstbestendig ADJ(vrij,basis,zonder)
|
|
11 omhooggegaan WW(vd,vrij,zonder)
|
|
11 Iraans-Koerdische ADJ(prenom,basis,met-e,stan)
|
|
11 antifascistische ADJ(prenom,basis,met-e,stan)
|