update
This commit is contained in:
95
README.admin.md
Normal file
95
README.admin.md
Normal file
@@ -0,0 +1,95 @@
|
||||
# Actuele nieuwsberichten
|
||||
|
||||
- voor Alpino: nieuwe namen en nieuwe woorden
|
||||
- voor *Woord van de maand* ook: toplijsten van personen, plaatsen,
|
||||
organisaties en andere namen (TODO: url van webapp)
|
||||
|
||||
Voor interactief gebruik:
|
||||
|
||||
```
|
||||
query.sh
|
||||
```
|
||||
|
||||
## 1. Verzamelen van berichten
|
||||
|
||||
Berichten van NieuwsNL in `NieuwsNL/yyyy/mm/dd/` TODO
|
||||
|
||||
Overigen in `[A-Z]*/yyyy/ww/` (weeknummer)
|
||||
|
||||
crontab van p209327@colossus
|
||||
|
||||
```
|
||||
# m h dom mon dow command
|
||||
3 * * * * /net/corpora/nlnieuws/AT5/at5
|
||||
4 * * * * /net/corpora/nlnieuws/BuurtAdam/buurtadam
|
||||
5 * * * * /net/corpora/nlnieuws/BuurtGrn/buurtgrn
|
||||
6 * * * * /net/corpora/nlnieuws/GG/gg
|
||||
7 * * * * /net/corpora/nlnieuws/HLN/hln
|
||||
8 * * * * /net/corpora/nlnieuws/LitNL/litnl
|
||||
9 * * * * /net/corpora/nlnieuws/NieuwsNL/nieuwsnl
|
||||
10 * * * * /net/corpora/nlnieuws/NOS/nos
|
||||
11 * * * * /net/corpora/nlnieuws/NU/nu
|
||||
12 * * * * /net/corpora/nlnieuws/Oog/oog
|
||||
13 * * * * /net/corpora/nlnieuws/Parool/parool
|
||||
14 * * * * /net/corpora/nlnieuws/RO/ro
|
||||
15 * * * * /net/corpora/nlnieuws/RTVNoord/rtvnoord
|
||||
16 * * * * /net/corpora/nlnieuws/Sargasso/sargasso
|
||||
17 * * * * /net/corpora/nlnieuws/Sikkom/sikkom
|
||||
18 * * * * /net/corpora/nlnieuws/Tzum/tzum
|
||||
19 * * * * /net/corpora/nlnieuws/VRT/vrt
|
||||
20 * * * * /net/corpora/nlnieuws/Volkskrant/volkskrant
|
||||
```
|
||||
|
||||
## 2. Teksten verwerken: omzetten naar zinnen, parsen, metadata toevoegen
|
||||
|
||||
Uitvoer in `[A-Z]*/corpus/`
|
||||
|
||||
crontab van p209327@colossus
|
||||
|
||||
```
|
||||
# m h dom mon dow command
|
||||
# veel data: elke dag
|
||||
0 1 * * * /net/corpora/nlnieuws/HLN/txt2corpus.sh
|
||||
0 1 * * * /net/corpora/nlnieuws/NOS/txt2corpus.sh
|
||||
0 1 * * * /net/corpora/nlnieuws/NU/txt2corpus.sh
|
||||
0 1 * * * /net/corpora/nlnieuws/NieuwsNL/txt2corpus.sh
|
||||
0 1 * * * /net/corpora/nlnieuws/VRT/txt2corpus.sh
|
||||
0 1 * * * /net/corpora/nlnieuws/Volkskrant/txt2corpus.sh
|
||||
# weinig data: alleen op dinsdag
|
||||
0 1 * * 2 /net/corpora/nlnieuws/AT5/txt2corpus.sh
|
||||
0 1 * * 2 /net/corpora/nlnieuws/BuurtAdam/txt2corpus.sh
|
||||
0 1 * * 2 /net/corpora/nlnieuws/BuurtGrn/txt2corpus.sh
|
||||
0 1 * * 2 /net/corpora/nlnieuws/GG/txt2corpus.sh
|
||||
0 1 * * 2 /net/corpora/nlnieuws/LitNL/txt2corpus.sh
|
||||
0 1 * * 2 /net/corpora/nlnieuws/Oog/txt2corpus.sh
|
||||
0 1 * * 2 /net/corpora/nlnieuws/Parool/txt2corpus.sh
|
||||
0 1 * * 2 /net/corpora/nlnieuws/RO/txt2corpus.sh
|
||||
0 1 * * 2 /net/corpora/nlnieuws/RTVNoord/txt2corpus.sh
|
||||
0 1 * * 2 /net/corpora/nlnieuws/Sargasso/txt2corpus.sh
|
||||
0 1 * * 2 /net/corpora/nlnieuws/Sikkom/txt2corpus.sh
|
||||
0 1 * * 2 /net/corpora/nlnieuws/Tzum/txt2corpus.sh
|
||||
```
|
||||
|
||||
## 3. Queries uitvoeren, tellingen doen
|
||||
|
||||
Tellingen in `data/`
|
||||
|
||||
Gegevens voor webapp in `data/json/`
|
||||
|
||||
Op woensdag
|
||||
|
||||
crontab van p209327@colossus
|
||||
|
||||
```
|
||||
# m h dom mon dow command
|
||||
0 1 * * 3 /net/corpora/nlnieuws/collect.sh
|
||||
```
|
||||
|
||||
## 4. Data in json op webplatform zetten
|
||||
|
||||
crontab van f109308@colossus
|
||||
|
||||
```
|
||||
# m h dom mon dow command
|
||||
30 0-23/4 * * * rsync -e 'ssh -F /net/aistaff/alfa/.ssh/config' -a --no-g /net/corpora/nlnieuws/data/json/ webalfa:/home/www/f109308/site/wvdm/data
|
||||
```
|
||||
Reference in New Issue
Block a user