Peter Kleiweg a9f9e17acf gone gone
2026-06-06 21:05:00 +02:00
2026-05-29 17:22:10 +02:00
2026-05-29 17:22:10 +02:00
2026-05-29 17:22:10 +02:00
2026-06-06 21:05:00 +02:00
2026-05-29 17:22:10 +02:00
2026-05-29 17:22:10 +02:00
2026-06-05 16:05:46 +02:00
2026-05-29 17:22:10 +02:00
2026-05-29 17:22:10 +02:00
2026-05-29 17:22:10 +02:00
2026-05-29 17:22:10 +02:00
2026-05-29 17:22:10 +02:00
2026-05-29 12:22:57 +02:00
2026-06-05 16:05:46 +02:00
2026-05-29 17:22:10 +02:00
2026-05-29 17:22:10 +02:00
2026-05-29 17:22:10 +02:00
2026-05-29 17:22:10 +02:00
2026-06-05 16:05:46 +02:00
2026-06-05 16:05:46 +02:00
2026-05-29 17:22:10 +02:00
2026-06-05 16:05:46 +02:00
2026-06-06 21:05:00 +02:00
2026-06-06 17:10:38 +02:00
2026-05-29 12:22:57 +02:00
2026-05-29 12:22:57 +02:00
2026-06-06 21:05:00 +02:00
2026-05-24 19:13:09 +02:00
2026-06-05 16:05:46 +02:00

Actuele nieuwsberichten

  • voor Alpino: nieuwe namen en nieuwe woorden
  • voor Woord van de maand ook: toplijsten van personen, plaatsen, organisaties en andere namen (TODO: url van webapp)

Voor interactief gebruik:

query.sh

1. Verzamelen van berichten

Berichten van NieuwsNL in NieuwsNL/yyyy/mm/dd/

Overigen in [A-Z]*/yyyy/ww/ (weeknummer)

crontab van p209327@colossus

# m h dom mon dow command
3   * *   *   *   /net/corpora/nlnieuws/AT5/at5
4   * *   *   *   /net/corpora/nlnieuws/BuurtAdam/buurtadam
5   * *   *   *   /net/corpora/nlnieuws/BuurtGrn/buurtgrn
6   * *   *   *   /net/corpora/nlnieuws/GG/gg
7   * *   *   *   /net/corpora/nlnieuws/HLN/hln
8   * *   *   *   /net/corpora/nlnieuws/LitNL/litnl
9   * *   *   *   /net/corpora/nlnieuws/NieuwsNL/nieuwsnl
10  * *   *   *   /net/corpora/nlnieuws/NOS/nos
11  * *   *   *   /net/corpora/nlnieuws/NU/nu
12  * *   *   *   /net/corpora/nlnieuws/Oog/oog
13  * *   *   *   /net/corpora/nlnieuws/Parool/parool
14  * *   *   *   /net/corpora/nlnieuws/RO/ro
15  * *   *   *   /net/corpora/nlnieuws/RTVNoord/rtvnoord
16  * *   *   *   /net/corpora/nlnieuws/Sargasso/sargasso
17  * *   *   *   /net/corpora/nlnieuws/Sikkom/sikkom
18  * *   *   *   /net/corpora/nlnieuws/Tzum/tzum
19  * *   *   *   /net/corpora/nlnieuws/VRT/vrt
20  * *   *   *   /net/corpora/nlnieuws/Volkskrant/volkskrant

2. Teksten verwerken: omzetten naar zinnen, parsen, metadata toevoegen

Uitvoer in [A-Z]*/corpus/

crontab van p209327@colossus

# m h dom mon dow command
# veel data: elke dag
0   1 *   *   *   /net/corpora/nlnieuws/HLN/txt2corpus.sh
0   1 *   *   *   /net/corpora/nlnieuws/NOS/txt2corpus.sh
0   1 *   *   *   /net/corpora/nlnieuws/NU/txt2corpus.sh
0   1 *   *   *   /net/corpora/nlnieuws/NieuwsNL/txt2corpus.sh
0   1 *   *   *   /net/corpora/nlnieuws/VRT/txt2corpus.sh
0   1 *   *   *   /net/corpora/nlnieuws/Volkskrant/txt2corpus.sh
# weinig data: alleen op dinsdag
0   1 *   *   2   /net/corpora/nlnieuws/AT5/txt2corpus.sh
0   1 *   *   2   /net/corpora/nlnieuws/BuurtAdam/txt2corpus.sh
0   1 *   *   2   /net/corpora/nlnieuws/BuurtGrn/txt2corpus.sh
0   1 *   *   2   /net/corpora/nlnieuws/GG/txt2corpus.sh
0   1 *   *   2   /net/corpora/nlnieuws/LitNL/txt2corpus.sh
0   1 *   *   2   /net/corpora/nlnieuws/Oog/txt2corpus.sh
0   1 *   *   2   /net/corpora/nlnieuws/Parool/txt2corpus.sh
0   1 *   *   2   /net/corpora/nlnieuws/RO/txt2corpus.sh
0   1 *   *   2   /net/corpora/nlnieuws/RTVNoord/txt2corpus.sh
0   1 *   *   2   /net/corpora/nlnieuws/Sargasso/txt2corpus.sh
0   1 *   *   2   /net/corpora/nlnieuws/Sikkom/txt2corpus.sh
0   1 *   *   2   /net/corpora/nlnieuws/Tzum/txt2corpus.sh

3. Queries uitvoeren, tellingen doen

Tellingen in data/

Gegevens voor webapp in data/json/

Op woensdag

crontab van p209327@colossus

# m h dom mon dow command
0   1 *   *   3   /net/corpora/nlnieuws/collect.sh

4. Data in json op webplatform zetten

crontab van f109308@colossus

# m h      dom mon dow command
30  0-23/4 *   *   *   rsync -e 'ssh -F /net/aistaff/alfa/.ssh/config' -a --no-g /net/corpora/nlnieuws/data/json/ webalfa:/home/www/f109308/site/wvdm/data
Description
No description provided
Readme 661 KiB
Languages
Go 72.4%
Shell 15.9%
JavaScript 4.8%
HTML 2.7%
Makefile 1.7%
Other 2.5%