acoustic_model/rozen-test/rozen-test.py

#!/usr/bin/env python
import os
os.chdir(r'C:\Users\Aki\source\repos\acoustic_model\acoustic_model')

import argparse
import json

from novoapi.backend import session

p = argparse.ArgumentParser()
p.add_argument("--user", default='martijn.wieling')
p.add_argument("--password", default='xxxxx')
args = p.parse_args()

rec = session.Recognizer(grammar_version="1.0", lang="nl", snodeid=101, user=args.user, password=args.password, keepopen=True)

grammar = {
  "type": "confusion_network",
  "version": "1.0",
  "data": {
    "kind": "sequence",
    "elements": [
      {
        "kind": "word",
        "pronunciation": [
          {
            "phones": [
              "r",
              "eu0",
              "s"
            ],
            "id": 0
          }
          ,
          {
            "phones": [
              "m",
              "a0",
              "n"
            ],
            "id": 1
          }
		   ,
          {
            "phones": [
              "m",
              "a0",
              "n",
              "t",
              "s",
              "y",
              "ax"
            ],
            "id": 2
          }
        ],
        "label": "reus"
      }
    ]
  },
  "return_objects": [
    "grammar"
  ],
  "phoneset": "novo70"
}

res = rec.setgrammar(grammar)
#print "Set grammar result", res


## === novoapi/backend/session.py ===
#import wave
#import time
#from novoapi.backend.session import rpcid, segmentation

#wavf = "reus1008-reus.wav"
#w = wave.open(wavf, 'r')
#nchannels, sampwidth, framerate, nframes, comptype, compname = w.getparams()
#buf = w.readframes(nframes)
#w.close()

#buffer_size = 4096
#nbytes_sent = 0
#start = time.time()
#for j in range(0, len(buf), buffer_size):
#    audio_packet = buf[j:j + buffer_size]
#    nbytes_sent += len(audio_packet)
#    rec.conn.send_binary(audio_packet)
#rec.conn.send(json.dumps({"jsonrpc": "2.0", "method": "get_result", "id": rpcid.next()}))
#print(rpcid.next())
#rec.last_message = rec.conn.recv() 
#message = json.loads(rec.last_message)
#result = session.segmentation(message["result"]["words"])
#result.export()
## ====================================

def result2pronunciation(result, word):
	#result_ = res.export()[1]
	result_ = [result[i] for i in range(len(result)) if result[i]['label'] == word] 
	llh = result_[0]['llh']
	phones = result_[0]['phones']
	pronunciation = [phone['label'] for phone in phones]
	return pronunciation, llh


res = rec.recognize_wav("reus1008-reus.wav")
#print "\n\n\nThe pronounced word in reus1008-reus.wav is: REUS\n\n"
#print "Recognition result:", json.dumps(res.export(), indent=4)
result2pronunciation(res.export(), 'reus')

#print "\n\n\nThe pronounced word in reus1167-man.wav is: MAN\n\n"
res2 = rec.recognize_wav("reus1167-man.wav")
#print "Recognition result:", json.dumps(res2.export(), indent=4)
result2pronunciation(res2.export(), 'reus')

#print "\n\n\nThe pronounced word in reus3768-mantsje.wav is: MANTSJE\n\n"
res3 = rec.recognize_wav("reus3768-mantsje.wav")
#print "Recognition result:", json.dumps(res3.export(), indent=4)
result2pronunciation(res3.export(), 'reus')
rozen-test is added. 2019-01-21 10:35:50 +01:00			`#!/usr/bin/env python`
			`import os`
			`os.chdir(r'C:\Users\Aki\source\repos\acoustic_model\acoustic_model')`

			`import argparse`
			`import json`

			`from novoapi.backend import session`

			`p = argparse.ArgumentParser()`
			`p.add_argument("--user", default='martijn.wieling')`
			`p.add_argument("--password", default='xxxxx')`
			`args = p.parse_args()`

			`rec = session.Recognizer(grammar_version="1.0", lang="nl", snodeid=101, user=args.user, password=args.password, keepopen=True)`

			`grammar = {`
			`"type": "confusion_network",`
			`"version": "1.0",`
			`"data": {`
			`"kind": "sequence",`
			`"elements": [`
			`{`
			`"kind": "word",`
			`"pronunciation": [`
			`{`
			`"phones": [`
			`"r",`
			`"eu0",`
			`"s"`
			`],`
			`"id": 0`
			`}`
			`,`
			`{`
			`"phones": [`
			`"m",`
			`"a0",`
			`"n"`
			`],`
			`"id": 1`
			`}`
			`,`
			`{`
			`"phones": [`
			`"m",`
			`"a0",`
			`"n",`
			`"t",`
			`"s",`
			`"y",`
			`"ax"`
			`],`
			`"id": 2`
			`}`
			`],`
			`"label": "reus"`
			`}`
			`]`
			`},`
			`"return_objects": [`
			`"grammar"`
			`],`
			`"phoneset": "novo70"`
			`}`

			`res = rec.setgrammar(grammar)`
			`#print "Set grammar result", res`


			`## === novoapi/backend/session.py ===`
			`#import wave`
			`#import time`
			`#from novoapi.backend.session import rpcid, segmentation`

			`#wavf = "reus1008-reus.wav"`
			`#w = wave.open(wavf, 'r')`
			`#nchannels, sampwidth, framerate, nframes, comptype, compname = w.getparams()`
			`#buf = w.readframes(nframes)`
			`#w.close()`

			`#buffer_size = 4096`
			`#nbytes_sent = 0`
			`#start = time.time()`
			`#for j in range(0, len(buf), buffer_size):`
			`# audio_packet = buf[j:j + buffer_size]`
			`# nbytes_sent += len(audio_packet)`
			`# rec.conn.send_binary(audio_packet)`
			`#rec.conn.send(json.dumps({"jsonrpc": "2.0", "method": "get_result", "id": rpcid.next()}))`
			`#print(rpcid.next())`
			`#rec.last_message = rec.conn.recv()`
			`#message = json.loads(rec.last_message)`
			`#result = session.segmentation(message["result"]["words"])`
			`#result.export()`
			`## ====================================`

			`def result2pronunciation(result, word):`
			`#result_ = res.export()[1]`
			`result_ = [result[i] for i in range(len(result)) if result[i]['label'] == word]`
			`llh = result_[0]['llh']`
			`phones = result_[0]['phones']`
			`pronunciation = [phone['label'] for phone in phones]`
			`return pronunciation, llh`


			`res = rec.recognize_wav("reus1008-reus.wav")`
			`#print "\n\n\nThe pronounced word in reus1008-reus.wav is: REUS\n\n"`
			`#print "Recognition result:", json.dumps(res.export(), indent=4)`
			`result2pronunciation(res.export(), 'reus')`

			`#print "\n\n\nThe pronounced word in reus1167-man.wav is: MAN\n\n"`
			`res2 = rec.recognize_wav("reus1167-man.wav")`
			`#print "Recognition result:", json.dumps(res2.export(), indent=4)`
			`result2pronunciation(res2.export(), 'reus')`

			`#print "\n\n\nThe pronounced word in reus3768-mantsje.wav is: MANTSJE\n\n"`
			`res3 = rec.recognize_wav("reus3768-mantsje.wav")`
			`#print "Recognition result:", json.dumps(res3.export(), indent=4)`
			`result2pronunciation(res3.export(), 'reus')`