96 lines
3.1 KiB
Markdown
96 lines
3.1 KiB
Markdown
# Actuele nieuwsberichten
|
|
|
|
- voor Alpino: nieuwe namen en nieuwe woorden
|
|
- voor *Woord van de maand* ook: toplijsten van personen, plaatsen,
|
|
organisaties en andere namen (TODO: url van webapp)
|
|
|
|
Voor interactief gebruik:
|
|
|
|
```
|
|
query.sh
|
|
```
|
|
|
|
## 1. Verzamelen van berichten
|
|
|
|
Berichten van NieuwsNL in `NieuwsNL/yyyy/mm/dd/`
|
|
|
|
Overigen in `[A-Z]*/yyyy/ww/` (weeknummer)
|
|
|
|
crontab van p209327@colossus
|
|
|
|
```
|
|
# m h dom mon dow command
|
|
3 * * * * /net/corpora/nlnieuws/AT5/at5
|
|
4 * * * * /net/corpora/nlnieuws/BuurtAdam/buurtadam
|
|
5 * * * * /net/corpora/nlnieuws/BuurtGrn/buurtgrn
|
|
6 * * * * /net/corpora/nlnieuws/GG/gg
|
|
7 * * * * /net/corpora/nlnieuws/HLN/hln
|
|
8 * * * * /net/corpora/nlnieuws/LitNL/litnl
|
|
9 * * * * /net/corpora/nlnieuws/NieuwsNL/nieuwsnl
|
|
10 * * * * /net/corpora/nlnieuws/NOS/nos
|
|
11 * * * * /net/corpora/nlnieuws/NU/nu
|
|
12 * * * * /net/corpora/nlnieuws/Oog/oog
|
|
13 * * * * /net/corpora/nlnieuws/Parool/parool
|
|
14 * * * * /net/corpora/nlnieuws/RO/ro
|
|
15 * * * * /net/corpora/nlnieuws/RTVNoord/rtvnoord
|
|
16 * * * * /net/corpora/nlnieuws/Sargasso/sargasso
|
|
17 * * * * /net/corpora/nlnieuws/Sikkom/sikkom
|
|
18 * * * * /net/corpora/nlnieuws/Tzum/tzum
|
|
19 * * * * /net/corpora/nlnieuws/VRT/vrt
|
|
20 * * * * /net/corpora/nlnieuws/Volkskrant/volkskrant
|
|
```
|
|
|
|
## 2. Teksten verwerken: omzetten naar zinnen, parsen, metadata toevoegen
|
|
|
|
Uitvoer in `[A-Z]*/corpus/`
|
|
|
|
crontab van p209327@colossus
|
|
|
|
```
|
|
# m h dom mon dow command
|
|
# veel data: elke dag
|
|
0 1 * * * /net/corpora/nlnieuws/HLN/txt2corpus.sh
|
|
0 1 * * * /net/corpora/nlnieuws/NOS/txt2corpus.sh
|
|
0 1 * * * /net/corpora/nlnieuws/NU/txt2corpus.sh
|
|
0 1 * * * /net/corpora/nlnieuws/NieuwsNL/txt2corpus.sh
|
|
0 1 * * * /net/corpora/nlnieuws/VRT/txt2corpus.sh
|
|
0 1 * * * /net/corpora/nlnieuws/Volkskrant/txt2corpus.sh
|
|
# weinig data: alleen op dinsdag
|
|
0 1 * * 2 /net/corpora/nlnieuws/AT5/txt2corpus.sh
|
|
0 1 * * 2 /net/corpora/nlnieuws/BuurtAdam/txt2corpus.sh
|
|
0 1 * * 2 /net/corpora/nlnieuws/BuurtGrn/txt2corpus.sh
|
|
0 1 * * 2 /net/corpora/nlnieuws/GG/txt2corpus.sh
|
|
0 1 * * 2 /net/corpora/nlnieuws/LitNL/txt2corpus.sh
|
|
0 1 * * 2 /net/corpora/nlnieuws/Oog/txt2corpus.sh
|
|
0 1 * * 2 /net/corpora/nlnieuws/Parool/txt2corpus.sh
|
|
0 1 * * 2 /net/corpora/nlnieuws/RO/txt2corpus.sh
|
|
0 1 * * 2 /net/corpora/nlnieuws/RTVNoord/txt2corpus.sh
|
|
0 1 * * 2 /net/corpora/nlnieuws/Sargasso/txt2corpus.sh
|
|
0 1 * * 2 /net/corpora/nlnieuws/Sikkom/txt2corpus.sh
|
|
0 1 * * 2 /net/corpora/nlnieuws/Tzum/txt2corpus.sh
|
|
```
|
|
|
|
## 3. Queries uitvoeren, tellingen doen
|
|
|
|
Tellingen in `data/`
|
|
|
|
Gegevens voor webapp in `data/json/`
|
|
|
|
Op woensdag
|
|
|
|
crontab van p209327@colossus
|
|
|
|
```
|
|
# m h dom mon dow command
|
|
0 1 * * 3 /net/corpora/nlnieuws/collect.sh
|
|
```
|
|
|
|
## 4. Data in json op webplatform zetten
|
|
|
|
crontab van f109308@colossus
|
|
|
|
```
|
|
# m h dom mon dow command
|
|
30 0-23/4 * * * rsync -e 'ssh -F /net/aistaff/alfa/.ssh/config' -a --no-g /net/corpora/nlnieuws/data/json/ webalfa:/home/www/f109308/site/wvdm/data
|
|
```
|