stimmenfryslan/notebooks/Martijn Format.ipynb

9.5 KiB
Raw Blame History

In [1]:
with open('martijn_format/Dutch613-coordinates.txt') as f:
    coordinates = list(f)
    
with open('martijn_format/Nederlands-ipa.utxt') as f:
    table = list(f)
In [9]:
coordinates[1].split('\t')
Out[9]:
['Aalsmeer NH', '4.76163', '52.2693\n']
In [6]:
table[0].split('\t')
Out[6]:
['',
 'kippen',
 'mijn',
 'vriend',
 'bloemen',
 'spinnen',
 'machines',
 'werk',
 'op',
 'schip',
 'kregen',
 'beschimmeld',
 'brood',
 'timmerman',
 'splinter',
 'vinger',
 'fabriek',
 'vier',
 'bier',
 'twee',
 'drie',
 'hij',
 'knuppel',
 'ik',
 'knie',
 'gezien',
 'ragebol',
 'pet',
 'paddestoel',
 'kerel',
 'brede',
 'stenen',
 'breder',
 'breedste',
 'standbeeld',
 'duivel',
 'gebleven',
 'meester',
 'zee',
 'graag',
 'keelpijn',
 'steel',
 'bezem',
 'neen',
 'geroepen',
 'peer',
 'rijp',
 'geld',
 'ver',
 'brengen',
 'vrouw',
 'zwemmen',
 'sterk',
 'bed',
 'optillen',
 'metselaar',
 'springen',
 'boterham',
 'vader',
 'zes',
 'jaar',
 'school',
 'laten',
 'gaan',
 'water',
 'potten',
 'zijn',
 'veel',
 'maart',
 'nog',
 'koud',
 'kaars',
 'geeft',
 'licht',
 'paard',
 'tegen',
 'zwaluwen',
 'kaas',
 'motor',
 'dag',
 'avond',
 'jongetje',
 'barst',
 'brief',
 'hart',
 'spannen',
 'nieuwe',
 'kar',
 'zoon',
 'koning',
 'ook',
 'geweest',
 'rozen',
 'lange',
 'woord',
 'kindje',
 'was',
 'dochtertje',
 'bos',
 'ladder',
 'mond',
 'droog',
 'dorst',
 'weg',
 'krom',
 'liedje',
 'goed',
 'kelder',
 'voor',
 'moest',
 'ossenbloed',
 'drinken',
 'broer',
 'moe',
 'karnemelk',
 'dun',
 'zuur',
 'put',
 'uur',
 'Italië',
 'bergen',
 'vuur',
 'spuwen',
 'duwen',
 'hebben',
 'stuk',
 'brug',
 'veulen',
 'komen',
 'deur',
 'naaien',
 'gras',
 'brouwer',
 'bakken',
 'je',
 'eieren',
 'krijgen',
 'markt',
 'waren',
 'vijf',
 'eikels',
 'hooi',
 'is',
 'groen',
 'boompje',
 'wijn',
 'huis',
 'melk',
 'spuit',
 'koe',
 'koster',
 'kruiwagen',
 'buigen',
 'Duitsers',
 'blauw',
 'geslagen',
 'saus',
 'flauw',
 'sneeuw',
 'stad',
 'doen',
 'dopen',
 'doopvont',
 'soldaten',
 'dorsen',
 'binden',
 'gebonden\n']
In [4]:
table[1].split('\t')
Out[4]:
['West-Terschelling',
 'kipən',
 'miŋ',
 'kɑ̟mərɑ̟ːt',
 'blʊmə',
 'spɪnə',
 'məsinəs / məʃinəs',
 'ʋɔrə̆k',
 'ʊp̬',
 'sxɪp',
 'kreːɣə̃ / krɪɣə̃',
 'fəsxɪməlt / bəsxɪməlt',
 'bro̝ˑə̆t',
 'tɪmərmɑn',
 'splɪntər',
 'fɪŋər',
 'fəbrik',
 'fjɔŭwər',
 'biˑə̆r',
 'twɑ̟',
 'treːĭjə',
 'hɛĭ',
 'knʏpəl / ɛinhɔŭt',
 'ɪk',
 'knɪbəl',
 'siˑə̆n',
 'rɑ̟ːɣəbɔl',
 'pɛt',
 'pɑ̟dəstuˑə̆l',
 'mɑ̟n',
 'breːdə / breːjə',
 'stɪː',
 'breːdər',
 'breːstə',
 'stɔndbeːlt',
 'dyvəl',
 'blɔŭn',
 'meːstər',
 'seˑ',
 'xrɑːx',
 'ətĩˑsĩkeːl',
 'stɛːl',
 'biːzəm',
 'neː',
 'rɔft',
 'pɔˑə̆r',
 'rip',
 'jɪlt',
 'fiˑə̆r',
 'brɪŋə',
 'ʋiːf',
 'swʊmə',
 'stɛrk',
 'bɛˑə̆t',
 'ʊptɪlən',
 '',
 'sprɪŋə',
 '',
 'tɔ̞ˑə̆',
 'sɛks',
 'jiə̆r',
 'sxuˑəl',
 'lɪtn̩̆',
 'xeˑə̆̃',
 'ʋɛtər',
 'pɔtn̩̆',
 'bɪn',
 'fʊlə',
 'mɑˑə̆t',
 'nɔx',
 'kɔˑə̆t',
 'kɛs',
 'jʊxt',
 'jɛxt',
 'hoĭsʲ',
 'tsjɪ',
 'swɑːlywə',
 'tsiːs / tsjiːs',
 'moˑtər',
 'dɛĭ',
 'ioŋ',
 'jʊŋkjə',
 'bœ̝st',
 'briːf',
 'hɔĭtʲ',
 'spɔnə',
 'niˑjə',
 'kɑ̟rə',
 'sɪn',
 'koˑə̆nɪŋ',
 'eˑə̆k',
 'ʋɛn',
 'roˑə̆zən',
 'lɑ̟ŋə',
 'ʋɔĭtʲ',
 'bɔ̞nʲ',
 'ʋɑ̟z',
 'fɑ̟mkə / dɔxtərtsə',
 'bʊs',
 'leˑə̆rt',
 'mylə',
 'drux',
 'toˑə̆st',
 'ʋɛĭ',
 '',
 'fɛsjə',
 'xuˑət',
 'kɛldər',
 'fŭɑ̟r',
 'mɔs',
 'ɔsəbluˑət̬',
 'drɪŋkə',
 'bruər',
 'muˑə̆t',
 'suˑp / kɑrnəmoˑə̆lək',
 'tɪn',
 'suːr',
 'pʏt',
 'uːr',
 'itɑ̟ːljə',
 'bɑ̟rɣən',
 'fjuːr',
 'spiˑə̆n',
 'drʏkən',
 'hɑ̟bə',
 'stɪk',
 'brʏx',
 'fɔlʲtsə',
 'kʊmə',
 'doˑə̆r',
 'nɑːĭjə',
 'xɛs',
 'brɔŭwər',
 'bɑ̟kə',
 'do̞',
 'ɑːə̆jən',
 'kriˑjə',
 'mɑ̟rək / mɑrəkt',
 'wɑːrə̃',
 'fiːf',
 'ɛikəls',
 'heˑə̆',
 'ɪz',
 'xriˑə̆n',
 'boːmkə',
 'ʋin',
 'hyːs',
 'mʊə̆lək',
 'spœĭt',
 'ku',
 'kɔstər',
 'krødʋɛin',
 'buːɣə',
 'dytsərs',
 'blɑːŭ',
 'slɛin',
 'sjy',
 '',
 'sneː',
 'stɑ̟t',
 'dweˑə̆n',
 'doːpə',
 'doːpfʊnt',
 'sɔldɑːtən',
 'tɛskjə',
 'binə',
 'boŋ\n']