Actuele nieuwsberichten
- voor Alpino: nieuwe namen en nieuwe woorden
- voor Woord van de maand ook: toplijsten van personen, plaatsen, organisaties en andere namen (TODO: url van webapp)
Voor interactief gebruik:
query.sh
1. Verzamelen van berichten
Berichten van NieuwsNL in NieuwsNL/yyyy/mm/dd/
Overigen in [A-Z]*/yyyy/ww/ (weeknummer)
crontab van p209327@colossus
# m h dom mon dow command
3 * * * * /net/corpora/nlnieuws/AT5/at5
4 * * * * /net/corpora/nlnieuws/BuurtAdam/buurtadam
5 * * * * /net/corpora/nlnieuws/BuurtGrn/buurtgrn
6 * * * * /net/corpora/nlnieuws/GG/gg
7 * * * * /net/corpora/nlnieuws/HLN/hln
8 * * * * /net/corpora/nlnieuws/LitNL/litnl
9 * * * * /net/corpora/nlnieuws/NieuwsNL/nieuwsnl
10 * * * * /net/corpora/nlnieuws/NOS/nos
11 * * * * /net/corpora/nlnieuws/NU/nu
12 * * * * /net/corpora/nlnieuws/Oog/oog
13 * * * * /net/corpora/nlnieuws/Parool/parool
14 * * * * /net/corpora/nlnieuws/RO/ro
15 * * * * /net/corpora/nlnieuws/RTVNoord/rtvnoord
16 * * * * /net/corpora/nlnieuws/Sargasso/sargasso
17 * * * * /net/corpora/nlnieuws/Sikkom/sikkom
18 * * * * /net/corpora/nlnieuws/Tzum/tzum
19 * * * * /net/corpora/nlnieuws/VRT/vrt
20 * * * * /net/corpora/nlnieuws/Volkskrant/volkskrant
2. Teksten verwerken: omzetten naar zinnen, parsen, metadata toevoegen
Uitvoer in [A-Z]*/corpus/
crontab van p209327@colossus
# m h dom mon dow command
# veel data: elke dag
0 1 * * * /net/corpora/nlnieuws/HLN/txt2corpus.sh
0 1 * * * /net/corpora/nlnieuws/NOS/txt2corpus.sh
0 1 * * * /net/corpora/nlnieuws/NU/txt2corpus.sh
0 1 * * * /net/corpora/nlnieuws/NieuwsNL/txt2corpus.sh
0 1 * * * /net/corpora/nlnieuws/VRT/txt2corpus.sh
0 1 * * * /net/corpora/nlnieuws/Volkskrant/txt2corpus.sh
# weinig data: alleen op dinsdag
0 1 * * 2 /net/corpora/nlnieuws/AT5/txt2corpus.sh
0 1 * * 2 /net/corpora/nlnieuws/BuurtAdam/txt2corpus.sh
0 1 * * 2 /net/corpora/nlnieuws/BuurtGrn/txt2corpus.sh
0 1 * * 2 /net/corpora/nlnieuws/GG/txt2corpus.sh
0 1 * * 2 /net/corpora/nlnieuws/LitNL/txt2corpus.sh
0 1 * * 2 /net/corpora/nlnieuws/Oog/txt2corpus.sh
0 1 * * 2 /net/corpora/nlnieuws/Parool/txt2corpus.sh
0 1 * * 2 /net/corpora/nlnieuws/RO/txt2corpus.sh
0 1 * * 2 /net/corpora/nlnieuws/RTVNoord/txt2corpus.sh
0 1 * * 2 /net/corpora/nlnieuws/Sargasso/txt2corpus.sh
0 1 * * 2 /net/corpora/nlnieuws/Sikkom/txt2corpus.sh
0 1 * * 2 /net/corpora/nlnieuws/Tzum/txt2corpus.sh
3. Queries uitvoeren, tellingen doen
Tellingen in data/
Gegevens voor webapp in data/json/
Op woensdag
crontab van p209327@colossus
# m h dom mon dow command
0 1 * * 3 /net/corpora/nlnieuws/collect.sh
4. Data in json op webplatform zetten
crontab van f109308@colossus
# m h dom mon dow command
30 0-23/4 * * * rsync -e 'ssh -F /net/aistaff/alfa/.ssh/config' -a --no-g /net/corpora/nlnieuws/data/json/ webalfa:/home/www/f109308/site/wvdm/data
Description
Languages
Go
72.4%
Shell
15.9%
JavaScript
4.8%
HTML
2.7%
Makefile
1.7%
Other
2.5%