# Actuele nieuwsberichten - voor Alpino: nieuwe namen en nieuwe woorden - voor *Woord van de maand* ook: toplijsten van personen, plaatsen, organisaties en andere namen (TODO: url van webapp) Voor interactief gebruik: ``` query.sh ``` ## 1. Verzamelen van berichten Berichten van NieuwsNL in `NieuwsNL/yyyy/mm/dd/` Overigen in `[A-Z]*/yyyy/ww/` (weeknummer) crontab van p209327@colossus ``` # m h dom mon dow command 3 * * * * /net/corpora/nlnieuws/AT5/at5 4 * * * * /net/corpora/nlnieuws/BuurtAdam/buurtadam 5 * * * * /net/corpora/nlnieuws/BuurtGrn/buurtgrn 6 * * * * /net/corpora/nlnieuws/GG/gg 7 * * * * /net/corpora/nlnieuws/HLN/hln 8 * * * * /net/corpora/nlnieuws/LitNL/litnl 9 * * * * /net/corpora/nlnieuws/NieuwsNL/nieuwsnl 10 * * * * /net/corpora/nlnieuws/NOS/nos 11 * * * * /net/corpora/nlnieuws/NU/nu 12 * * * * /net/corpora/nlnieuws/Oog/oog 13 * * * * /net/corpora/nlnieuws/Parool/parool 14 * * * * /net/corpora/nlnieuws/RO/ro 15 * * * * /net/corpora/nlnieuws/RTVNoord/rtvnoord 16 * * * * /net/corpora/nlnieuws/Sargasso/sargasso 17 * * * * /net/corpora/nlnieuws/Sikkom/sikkom 18 * * * * /net/corpora/nlnieuws/Tzum/tzum 19 * * * * /net/corpora/nlnieuws/VRT/vrt 20 * * * * /net/corpora/nlnieuws/Volkskrant/volkskrant ``` ## 2. Teksten verwerken: omzetten naar zinnen, parsen, metadata toevoegen Uitvoer in `[A-Z]*/corpus/` crontab van p209327@colossus ``` # m h dom mon dow command # veel data: elke dag 0 1 * * * /net/corpora/nlnieuws/HLN/txt2corpus.sh 0 1 * * * /net/corpora/nlnieuws/NOS/txt2corpus.sh 0 1 * * * /net/corpora/nlnieuws/NU/txt2corpus.sh 0 1 * * * /net/corpora/nlnieuws/NieuwsNL/txt2corpus.sh 0 1 * * * /net/corpora/nlnieuws/VRT/txt2corpus.sh 0 1 * * * /net/corpora/nlnieuws/Volkskrant/txt2corpus.sh # weinig data: alleen op dinsdag 0 1 * * 2 /net/corpora/nlnieuws/AT5/txt2corpus.sh 0 1 * * 2 /net/corpora/nlnieuws/BuurtAdam/txt2corpus.sh 0 1 * * 2 /net/corpora/nlnieuws/BuurtGrn/txt2corpus.sh 0 1 * * 2 /net/corpora/nlnieuws/GG/txt2corpus.sh 0 1 * * 2 /net/corpora/nlnieuws/LitNL/txt2corpus.sh 0 1 * * 2 /net/corpora/nlnieuws/Oog/txt2corpus.sh 0 1 * * 2 /net/corpora/nlnieuws/Parool/txt2corpus.sh 0 1 * * 2 /net/corpora/nlnieuws/RO/txt2corpus.sh 0 1 * * 2 /net/corpora/nlnieuws/RTVNoord/txt2corpus.sh 0 1 * * 2 /net/corpora/nlnieuws/Sargasso/txt2corpus.sh 0 1 * * 2 /net/corpora/nlnieuws/Sikkom/txt2corpus.sh 0 1 * * 2 /net/corpora/nlnieuws/Tzum/txt2corpus.sh ``` ## 3. Queries uitvoeren, tellingen doen Tellingen in `data/` Gegevens voor webapp in `data/json/` Op woensdag crontab van p209327@colossus ``` # m h dom mon dow command 0 1 * * 3 /net/corpora/nlnieuws/collect.sh ``` ## 4. Data in json op webplatform zetten crontab van f109308@colossus ``` # m h dom mon dow command 30 0-23/4 * * * rsync -e 'ssh -F /net/aistaff/alfa/.ssh/config' -a --no-g /net/corpora/nlnieuws/data/json/ webalfa:/home/www/f109308/site/wvdm/data ```