From f6e7c8eefa58eff1b00e5e93c421fbd91b0c55dc Mon Sep 17 00:00:00 2001
From: yemaozi88 <428968@gmail.com>
Date: Mon, 4 Feb 2019 13:46:27 +0100
Subject: [PATCH] bug related encoding on label file is fixed.

---
 .vs/acoustic_model/v15/.suo                   | Bin 101376 -> 97792 bytes
 .../__pycache__/defaultfiles.cpython-36.pyc   | Bin 1328 -> 1282 bytes
 acoustic_model/defaultfiles.py                |   7 +-
 acoustic_model/fame_hmm.py                    | 363 +++++++-----------
 acoustic_model/test.txt                       |   0
 5 files changed, 151 insertions(+), 219 deletions(-)
 delete mode 100644 acoustic_model/test.txt
diff --git a/.vs/acoustic_model/v15/.suo b/.vs/acoustic_model/v15/.suo
index 31f158bb3209b110d57c809a568e48e0cea57a27..7775f45e621950b937c9b0523a5af065e8b353f2 100644
GIT binary patch
delta 5260
zcmdT|dr*|u72or*AS_E<5OF0S%kmHcY<2;0A*j2!@sR+6(fA??A_x%_VZo{x)<@JB
zBJ3XH)jY{+6KkuHT}RA}n$@Ij;!F~>B-62Nifz&~rk&apqj3`LIr|_?;vY#LGwo%5
z-1oWX{LZ=OyI|WFV*4t%TaQ=whefMovJja}CMVpwefu_5GUzQyknXxV?@ZE;Qv*=P
zLyfpW+5m^~nzR)(xISp3*-oQ7bv!4Ng%iG}&4I##VrXm`K}lFj2+U2Qwt=wOUOuKH
zjvAr<$$O|yA#5Tf`o}W;^-O;qIHZdD9saR^-~#H8A?OLC{Bt=}rxETYwEM@#QN5M0
zTqavBOQlAzf5Jj_wZF|mW2vnnO!be=qWV#PJ8<X>>OV%v^N&YS{UBkYzt8K6sa-;t
zZZDsf&pc-k9wF2an5q?2R}yLo*@UqK-guwCUPW~y9toQkokgvDLJ>htun`<mW5nq9
zJGYaorcu|knq2h&TE^t!4aw$p){Zci#$_~ud`t(sgnN9p*578AtRy56#uF3-b|HI+
z*D_H74=tuPdnlg39?B)Khwdiu+Aylq2^9pkHGyCxu!ktzI)+`u3XF8oB3dw+z%FVa
zaCou6NUD?lZSEIRJDM=kLrfZb$V6b`?k7YL*h5PQyswn%DE4{4MXUhF)Ub<a!5l&v
z0ZqYrFx$&BRQ1&3?Nj_U{w%l<w%N<aITYI>S;PU5$qo{JOn4cuDU!zW=rQW`61dIf
zR&P}fI8++c#H7jDr?~soG`Dra(IB^0^&z;F$0Rwg#p8-(_YFlT*qbyCr6rU@CTMuM
zvJ)IpR`?0FMs>g;yhgvB*g9rw@F~7X?ynPrBxjuD)JTpfOK24h@txq4;5F}-lin>y
zc#C8Sci+4(L~_K;8rBD`G4tf4v`@LA7$rDUC1;`JFj=9`-D>(NxHXxB;E2(>wMB^#
z3>?I0o0y5#={98+?L0{XT%3BjbB5&1lbrJ;(VPwiLRSdU?$QDmIG0K#?3*nFCiQUw
zGqj!R9fV!}K94=+Z!<Hysoh2BCUg=U1SC9XFHgdzsoQ`k4hL6lA?W9mCi4h$2@er?
zdjJclztBInm})lx8&>XdsAtJrStPNAR&_tV8KXz*_&H(FM5E3AneZ*NoVB1LKnFRZ
zzZLFsn=Br1Hb}0fAyD!`w|Smcy57`Cs4*T4<s08f@Opj7NW_*(jye-mpjl@TQx||*
zn={S5|IA+#-v~dE+W7g?8JtwSys)^7B&%E|>^Wd|)oaKLW#ol6OK1zNVJ=y0@KdyC
z6Mi`^9knTQgBMZHj+@)2qh1QdH``7*AC;U7B_Zh`Tj-aw(#74N+J9q7wCK1#z5kV)
zU)9XT5Am!nI=qImQI)KfuA$X^dkIL64L76{a=f|W)+kN`RM_^(;`|m+xJ{LwU=EO1
zya9rm<U{gGTH&)anJjIWI27hd&Mk6pD7Xu(e*)CxCgB?~2DIi9#dWk{jeipk<(7r=
zty>!yuukf9{z!6mO89e~%B|9!1mjRyazx+nC6@^K^Vf#GiCbyuFj?d1E;P`+`K^+^
z1tBuoY`O#~R5Ovz$0X+-$+=H*o&tp>+;>6bGQ4~x4;*+lyH)hu3kvj{HsMaY5u0{|
zh3DsF8ro-6HMG=J;=8*h;OI-CcePYE*Ed;PbWQ8qH|q6h+wQ@{?i4w#G~jz(DY#_2
zHn?ehoplvfrfcx^Ze>Dtex}|hWizRoGQXv!xvY6jZGA&cN=3_>R_9KM?gjpOf3!RL
znZJNzmq(n{LRw@~-I~=kEj8AP+N#EyWmPTBK7n1~aRvjQ<`Y@_Es<z?(xzljjV5rO
zMDyur?7AKj`vzsVru8#HlGV4YSxx$<(*vMDU$8OPnFf%8a47~mu0`UC^f-LID_m*F
z%goO89kQORPeEI{jYG(UroA3C)kUk`(I0xYGFboO?2r3T^bB^HIe^sF<jq!Di<k1F
zGX~DVN8`_*GkjW%W#U-q!uJ%U5-D|||88+C0pf)z4bsx`^=5NccK!@=t|j~aNt5+?
zn<BkNfB0Hj(MTDhcOpy@J+bgY{5G!~{w4Rc`P<}lZ^D!b+udL@u+vADoishN{{;1)
z^p9~?nQbpmP(MwLy#ztnN7zqzhJbYs^uR59)pgfy6X51gVzApD5@fAu!NeyM@N`#1
zgdv-}lIJ6A0})mz5>h}FpffyAABch~e=Lm+%*pd7Wg4*rb3}J6Bw}@XJUc*TFc<?{
z){zD&4!aG_+heh*djgi74i2hoY;=3<HVDK;xM6Z`U<0<{F3f)Rp!?upMX>8&kuu_K
z5<z*vi)YYWfw=0h65`N&Bo5WR^Rf8@wQ9b9o+>^6U}0}O&goSUA`f_aLn2Pl-QvIs
zqj$naG9$-%QvNTe-8*MZi}bxyo7?is<KWLuaF6@Tw?~Cgrr;RO6`?CZ={B9C+`LC}
z^gn?QezMMa0i65fc=1v)CJ&I|{jox$g;cj~zy{925a&U;>jMwq(g7_#-#@{5ND_a~
z1(Vx!$pfy#MIrw-gXrlsiFYPL%INdGl|dWoVjn;Gaq_<K?Nji=eM#8!ss_8;az`Lb
z7$!lMTXjVbd!t}9-<NcZzn%tRm^f5~rq66xJ!EpZJi&MJOR$0;2K)#Jx>Jt(hNV7}
z0%l9tFc3{<FA&eGL3ttqD9Ee&(@=Fq?d1m#46PM&lR$@~KQnl>u}y?5p-X{_X#7I!
zCGMqEx(Hv)=df4ynWEq<2$LS<c;lGn`&x|VfeifBmBxU*<3(a9j2p|3$UxyYAQuZI
z?qz{>%*!8zCJEy2@&>qfh0YTOeHm&fgGl}c`-;xP88cFJj)!-#yx$0+MCL!(v}iA*
z%RVuQ#j)^F0w<Wayy+t7y9tK!LrEb_L365Fn6e=46<ZPjO0A|y*#Ua8y-yb{kZJIO
z=hKLKdK2>p+grq|M#vYvS}-zImx;gpA7WwTR{=pXoku|@L7z?yC6HV_Vw}IKT!vF3
zwO3Kj4`|$u(Pv*)R4;2>vw|OTGBF_*3Ww9PsAA<PHK&VnS{SGLP9DAz3-f*$L*A5p
z;vN_T*e5P$z*^B%39+I$8I(ek1tDTE0}e@h>2sB;?juU$KpfA9V$qWhnRufzhFDb#
za~`Y`$@jtxSj;je3Ecw9u#bNhJ&NB*^y%-roer1(t0xSfs}{w2NEXQkI4qj<a2&RX
z%XQEqa*II)QNpke*5UEuRMJ}^=H!4K9u|?MU>3$4h=tl=F)F?uw5Uw{Ef1a-mOMBr
z24}(wX!9-c7|GgBZm$)O8bR|7D<ZQH;&?-xXj)Fv`8A3rOPV;EPjt@Bfp$?b1)?N}
zms1YYI&r=bVuWQSG>gG0B<l|ulqreBJK2%}2H~oP2HbQcN<20d&iFW=EHuTC1~0QQ
zE5*TSV1W(a7$XWx=)FIz)7};If!X~?thicCDxJ%sb4klkadkd1^hFj-6@%HNQ0_Xg
z{tt82M_g6Ff6n~At0iy|VCgVzI=T`sb-;Qt@GwQxxh1fV+&Ln?C#!^O0hFF7g>ye_
zTOVy(4$N;eUpJjlmC}{ESPxpET?n6#n5bL?FNo+xPz=v`Rl%DMtthC1UkKMi3b3~p
zLEg8g`)Jx3<X0VU>L={2B`14>tF(r$Hb)@t{*6-X=5eyBSrpYlDzE4idurhr-<<+s
z$_FFGm_k(4(;pViKD%G2gCY*2I`Mf6#ecVtp2}8Vz}JZ$E6niCuV|xrZv;NXv6aa-
z^+?-fxOwMXajOmTXtVe7v~MDA=Pf5Yj<u672R2d+_iTbnl!~W{t2GeSSGF8FrT=ex
z=syEKTJkm%EjG6NA#r8}-L|7P&_LzLsH%z;rCT5b8pP$9P=dc3m_TXBEXub)7xC`h
r*|3vx)i&QIN<?XBJIe_z(wB&5ZKX40;>AUfA&i?T5q$6S(joqzO{~h*

delta 5949
zcmd5=X;4&G7Jlckh|pkzEi}l|c32g#*^xNdAQFv=VswIr$l5|D2nc9oZ+Eky^i{9>
zkRHoP&5TBAD<qo4cAK$MH3^e3`QcOyrmUpKOx2i-OJYrAzS|45rK!nSNmX9)aqc~L
zJNJI)oOfTF{^MoZ?Y&(WAxq9jDM{l{^aSn=4-X5i$MN}5a)8Zp?N9HWx<qrJu{E+b
zxsA@UTk-}<VyzzSfjgkynk>3Yk^=a?w_<#^m;n<?5W^WxnFBc)C<iovXiI?%0K$Pn
zAPYzbo&=TwlK?*;1_%Yl17e)(nTUF+Q#Tg!do)ayq;BakRK@_Y&PHKi9Ple(DUb++
z07hUs;0@@2Kwt_W7D$E61Hu5Yp<GBkkPXZQM4wrZ@jwCa3=jlN5ZinLh1tMN;Bg=g
zm<P-UihzZHn1JcW>H?od#owiXtm!SDs0?;0o`b9d*dNDEr<Z$+L(Fnrfc~Pj^)yI%
z9t{tY(!C#Q7b#*D@%TU|&PQxz0m?!rIMO=H8puj#d81P<hZG$70xpikI2T9V&_9Hu
zZpjM`Vli?4f~0joCLjij2P8=mfZ#~ftDRDCB<fvGDLC2;R5|M|jzpgXr%sdwM?wmY
zhKI96ad>zoD#D)~wc%kwk_iwb37tDfqMp`UJf5cX7C)Xb!`VY<SD-A;%m7&d)B;g}
zXq(`aqWm~J;x!|%1DZ}C377`tv+u`SJ&zFhJE4k>7(n4I;B7!mdJ6I#;9cN7>&GfT
zG6xq}3xew8|7(mwW7Q~!$gFOmGi<fGn{4bB{-0#4LpR7J{?@yJ-m+OS+f%qZ>v<#I
z+M;-c%=xoDo1F^Ql0WF#C@Oh36Isj51?-%6ir0ErwT*oj(*BTHmtxk556pVh!>SFt
zLgw0wp5pZFYu&6>kR?{OY^M<2=+oJuOVo7~R@5~cI#}bDNdB2GMfz9O8mgWzt8ZA-
zP|;{)<$E;D)NASw(8yLz;t;V59ZIXR<1NY#)oQYi^v~90oV_#kU_#YdtTjS&7Ba?j
z9+K37U_K~I(s{6y3!NazqVqJbnJG5MTGlKWE0tqh10W1#H`grm5uv!srD%EK6-%aU
z&et;SJd2NrH9@{(Q}YzWn_?)3o3cn{Ez0R9i&mbaM*Dg|MDreC6CeV43$PV<5qJrB
z6%h7_rw8S2z;?jw)NeorpnJ@ayDj3hQ)PoZ?<_k8B9?nA{$-xrLZ_{(C;x%0n&ijG
zOA?OipmD0nZ!stwf&vexcuM1u%PELQW>d7awqQ3|(q(1}g7;`0r`y{Y?)3`#_Ognq
z30jAZ!cTWXw@b_c><0D%!U$HotB=mHuXFG8FB>G~9q;1pw(OdG#jLpYr0%P$*_jTN
zpFvuIz*&tX)?yu=PqJl^?6Ub~vSiB+8?;t!$rXFGRJKf)xg1ZK{QWlawd%`lUj6#%
zq_bi#!k9&nPdUp=AeRD910_z~GN)v9c{|Jt^*leGRP#K%+L8-r2Rvy^+V+zFtk*@N
zA7LO46jj1wUdKCT3kEkwN|FUK9_ectGDz7JWPa4ej>W^a4{EHoh2=Q$Uk{O`P#D}l
z`zCoNp_BF7IX<%8HLN);Ul7wQj`nH7V!|ba>v+A2PMwS{%w#&*hZQV&hbb?lqpU=E
zx@E0wUjD7D@?v+F-@}%_GmeohUGgLE-_q#mQ`&53ZZ<a5Bc7)CjzrxCM4jHF3To44
zTfiDaQ%hN6Z9~1Gtl7}Q^aqm0y25kwNO*>>XlSZ3RF_rM8EfhdO=VRLD;q1CjLr6`
z<1AZcra#fd^{M2^*7Q6Xpwqbp`KFOsLY(1U=04j>Lp>|o6UFq~ObU_Y#{n9EuTzso
z^#sY1SSGo#H39GH99>R(x}{C-->rAcDV-fD=_xLw+g-~gv+6x@UTK+$89HX%5@Sy@
zTsNNlSk;~cg)Sp8Bg2t}x?Lk8l{l39&I6Vu`lV(hra5|!%<XU9XJWlOgIU1l$yVDw
z6RDi}t+QiVT4IW$cc*LK0A@O1vY6!2PHCxGiK&iW?93i5?+zzlrZ?Nj%<?+hSqIx_
z`NWg;{pOJM(7{p<_!&!m?XdN*Wxv1wCpa7UksakMucI)s0g0>*Z}0|bt&}V^O07T>
zYR}pGaN9UCFu&tV!lV{lnM6dcM5ZW%6z>500Oosq+HY;gz4a=*z6Ake@!}U(kC{28
z3tL;@9BG+JX{n|2jFqL$#uh_TV@1{T6*Y$DQYWLOl~5S!t1b7ue3!!C#dXa~V!5|7
zxk*iv*u}k3%(TfQLPa4$Wf<+kI)25Ev~1|D5KRmeL-rUOV-xT9ct8OlIPDMn%k4Op
z7pvy_IO^c4iF9~uHMSv)l(_$|D1q%yQHk7<&J!z1Vbu@XsQ+w%{39dKdj3K>xdq>!
z$9S7By-2UI55G*|r@U#JVui8JP*z(}UtMRcw|q=+LiW-1Xcm1roNBl}kfyK?zEoLF
zmrd0Fg^l<DZ_<NuGBWB7=3P;gVAWr@ksGaEOumqB&j2C|j3SwJU0TnM?TBS7E~_nv
zWb3oH^u+XcOnlInlI$MLmBHj=Iqbufw>5B_d$;p>doUe$Gna+*2J(VHiVIS@8(xDr
zO68MOIP{QSC5;yOB|l0OL`?8@oVWeIxS=BpN(Er@H2*4yPW2znmw)*#Sn|Uz$UpOg
zKmI6>D>)f|zsD)s@vS0ql(^C|+sT|!e;d$y(j3{1fcyOA%`v2>A99l_zCcA01Ns0u
zLqFgWNp3C?W-Ysw`!IjtS0gDR;7hxC;-AX)Z)xDK<7puUr;aEc-y?$Kf^%%f?d|NH
zz5cA`awsdi72p-PqGF|Cmzu7rvPFimKPp=;%HrC~8+|F6nRc3fZm&~fF>#$5@j3;~
zWM^(=+g;yTJQhhsfufV^xsJlPfpJkZ|0mq;)ZdvxiR8`>_Vtbk{;n@gQi>FHwD8hd
zx)%EW*_40G<J-eX$FGJ{GFSM~N4vtvL?hj`5ATlIB6mg5I5FaHV@f_0A6XLLGLh1}
z8zhm{xL%8db}l7EdFAc+{QH-SCLPo7i09@oQa{+NjG;lY@T)Nt^=32;k)ynd--yMf
z>ckQX=ei}-$m?P$NZy6ZVyt=q2{oK(8NZrFv)HCPDrDSZJ{1%2!KY~+FG-+6>fx`w
zK&|X<xoB1M&su33@5&`5FVImU9p$TZ^eQWQLxWZizEVd=xM~SC@r$XHOzVX;tHk9X
zm~Tv@QrhZJoXke*`rx{Pccqax-;qHYALmg>Tr-{~+L;a)du5Y$KDbr(>AkSPRu}z{
zlK>5e2V4+N%JFMOGCS~hB}~%0ZKo)M3i;VMYGSryT0WGHrH9g}j<;lznbru)GI(+(
z`lQC-#0Ilyt=PPg=DHnc6kn7@vt_gW{P>M*>T=stIA7dGO#?$uV5fALe;tpw_spdN
zal$ba!at9r#o`qe%x>s>xH1l>@(bssTAW3=!y6v?_;_jxX;{`iE%*o%d`uIEI~^>9
zvz}+ec;gK6rZ&41@}69LT?vlFH;d1}jk)v@@$*HL`{?JM^+-$e8#D0D<hg)K92_0X
zpfKK7O9i~Ih@yqhW;(*ar-&kjbBA+#7ZDn4Q<id||0${@zNiFobmD0`NP7o{=h8X*
zW_JHHQ;I<Aqy5hK+^-$Td4?<=b|2*bEQ7gr=Nd7b-PJ{oaonuj!?5Qo1@9>b1HX5~
zCenqPy)-D|IhPl=(Q4P-UWC&)-dj%lcu*B$<B+{S>pbGirpLvjQ8^lG{@M7&ECoM+
zW#M(1EIPi-`<9UEmuW5krpgiZPEXG?pn9nW4BH9suSS-Hf5y;LylVv|y2Zpb^prPB
zY~9vH{Gb>havzQ)h$q)jxJRE<!1F>Wfq!Fwf0P?YjeFN<e*H<;S*M{*%qLR~BD{HV
zDS`~fFB99?#rup@&KJc|=?`{zfnFz*V~g*J9}7xbNi(v~BHq6ij{kWpHDMmd%c3F-
z3q=YC+2+<SzXREBqnO8@O5?d{BB^+#5tq)kN)5aZf6~viPAm)x<e#?DDw6o|SjyuU
Z+erOCj2j)qJTK_ouHx?3@^t*5^j}|!h5rBm

diff --git a/acoustic_model/__pycache__/defaultfiles.cpython-36.pyc b/acoustic_model/__pycache__/defaultfiles.cpython-36.pyc
index a74cd445a6744f8a5255cd49e925cbf35d2e347f..ef57dca2e2702e60280cdc7eb03df48c0b4899cb 100644
GIT binary patch
delta 376
zcmYk2yH3L}6o&2G>s)(D!*#0=%<upVya5BkLPF3#&;-;}ZC6yO5i3g;9s{Xwla&`>
zVq)MFSr(RTo$vqub1eHqti|dy48`^L)y;dr*eCn99IDT0FMj9%1Ak_c!H^uLG;&s&
zrIj17YD3zZY$8XK1E)5ntJx*jQ^et+L++{rAq9NtE5k=Xu|QKu6e5z5QX<5p#EN1h
zL<zdGtCb%5G`OcY!GIEd-JN1cS7)^?2V3okULmma*OIDGie2ns9|sf~f?u+e!{&@%
zG;jRgYn^d5eJCC`Uwq6*S!+}a=}wkUw<zY)o9DA?Tea5gZaHbKvMQ#VSM!B?$MlJw
KYh_JfkA4Bc9apvh

delta 422
zcmYk2yH3ME5Jh+Wj$<cw9!_{xX+l8(5)}m!6!eIK5mE%c0Vkl?O45LYB9Tw<k09kw
zC|%G{@)Jy8u~=!ed+yvjE6uC><}MC>-;KX6uaA8pKE=Od@%w~p=1CzSARh$@Xe5VX
ztc~@dgbrh=lL3=VrJ1mn8d)XTOm;~Q9QHdUSGc>VC|r+ox$UA#Re0nn-Gk3IzoZ&d
z4Rxw3rH+7=Kv95@DMW)BrP4%;=Qb6GXtSgBmp(#-4u9QUn$%We6&pX1NO6QsY+)Na
z?CC&Wi2iQglV?$3#p&d3bpP!A-uvgLY4(&S@^<wuV|mamv~)&xGJhCgG%bwmW}Xzr
jI2}z$B?d{%338^xEM0q6SNe-|_jv1$ZD>K1e;B=Qg}Y?r

diff --git a/acoustic_model/defaultfiles.py b/acoustic_model/defaultfiles.py
index b10d247..2188c97 100644
--- a/acoustic_model/defaultfiles.py
+++ b/acoustic_model/defaultfiles.py
@@ -1,14 +1,13 @@
 import os
-
-#default_hvite_config = os.path.join(os.path.dirname(os.path.realpath(__file__)), 'data', 'htk', 'config.HVite')
+# add path of the parent directory
+#os.path.dirname(os.path.realpath(__file__))
 
 #cygwin_dir = r'C:\cygwin64\home\Aki\acoustic_model'
 
 #htk_dir = r'C:\Aki\htk_fame'
 htk_dir = r'c:\OneDrive\Research\rug\experiments\acoustic_model\fame\htk'
 
-config_hcopy = os.path.join(htk_dir, 'config', 'config.HCopy')
-#config_train = os.path.join(cygwin_dir, 'config', 'config.train')
+
 #config_hvite = os.path.join(cygwin_dir, 'config', 'config.HVite')
 #mkhmmdefs_pl = os.path.join(cygwin_dir, 'src', 'acoustic_model', 'mkhmmdefs.pl')
 
diff --git a/acoustic_model/fame_hmm.py b/acoustic_model/fame_hmm.py
index d8da964..881dec3 100644
--- a/acoustic_model/fame_hmm.py
+++ b/acoustic_model/fame_hmm.py
@@ -5,8 +5,6 @@ os.chdir(r'C:\Users\Aki\source\repos\acoustic_model\acoustic_model')
 import tempfile
 import shutil
 import glob
-#import configparser
-#import subprocess
 import time
 
 import numpy as np
@@ -21,45 +19,42 @@ from htk import pyhtk
 
 
 ## ======================= user define =======================
-#repo_dir = 'C:\\Users\\Aki\\source\\repos\\acoustic_model'
-#curr_dir = repo_dir + '\\acoustic_model'
-#config_ini = curr_dir + '\\config.ini'
-#output_dir = 'C:\\OneDrive\\Research\\rug\\experiments\\friesian\\acoustic_model'
-#forced_alignment_module = 'C:\\Users\\Aki\\source\\repos\\forced_alignment'
+# procedure
+make_lexicon	  = 0
+make_label		  = 0 # it takes roughly 4800 sec on Surface pro 2.
+make_htk_files    = 0
+extract_features  = 0
+flat_start		  = 0
+train_model_without_sp = 1
+
+
+# pre-defined values.
 
 dataset_list = ['devel', 'test', 'train']
+hmmdefs_name = 'hmmdefs'
 
-# procedure
-extract_features  = 0
-make_lexicon	  = 0
-make_dictionary	  = 0 # 4800 sec
-make_htk_files    = 1
-combine_files	  = 0
-flat_start		  = 0
-train_model		  = 0
+lexicon_asr = os.path.join(default.fame_dir, 'lexicon', 'lex.asr')
+lexicon_oov = os.path.join(default.fame_dir, 'lexicon', 'lex.oov')
+
+config_dir = os.path.join(default.htk_dir, 'config')
+config_hcopy = os.path.join(config_dir, 'config.HCopy')
+config_train = os.path.join(config_dir, 'config.train')
+global_ded   = os.path.join(config_dir, 'global.ded')
+mkphones_led = os.path.join(config_dir, 'mkphones.led')
+prototype    = os.path.join(config_dir, 'proto39')
+
+model_dir    = os.path.join(default.htk_dir, 'model')
 
 
-## ======================= load variables =======================
+# directories / files to be made.
 
-lexicon_dir = os.path.join(default.fame_dir, 'lexicon') 
-lexicon_asr = os.path.join(lexicon_dir, 'lex.asr')
-lexicon_oov = os.path.join(lexicon_dir, 'lex.oov')
-lexicon_htk_asr = os.path.join(default.htk_dir, 'lexicon', 'lex.htk_asr')
-lexicon_htk_oov = os.path.join(default.htk_dir, 'lexicon', 'lex.htk_oov')
-lexicon_htk     = os.path.join(default.htk_dir, 'lexicon', 'lex.htk')
+lexicon_dir = os.path.join(default.htk_dir, 'lexicon') 
+lexicon_htk_asr = os.path.join(lexicon_dir, 'lex.htk_asr')
+lexicon_htk_oov = os.path.join(lexicon_dir, 'lex.htk_oov')
+lexicon_htk     = os.path.join(lexicon_dir, 'lex.htk')
 
-global_ded = os.path.join(default.htk_dir, 'config', 'global.ded')
-
-
-#hcompv_scp = output_dir + '\\scp\\combined.scp'
-#combined_mlf = output_dir + '\\label\\combined.mlf'
-
-#model_dir  = output_dir + '\\model'
-#model0_dir = model_dir + '\\hmm0'
-#proto_init = model_dir + '\\proto38'
-#proto_name = 'proto'
-#phonelist  = output_dir + '\\config\\phonelist_friesian.txt'
-#hmmdefs_name = 'hmmdefs'
+phonelist_txt = os.path.join(config_dir, 'phonelist.txt')
+model0_dir	  = os.path.join(model_dir, 'hmm0')
 
 feature_dir = os.path.join(default.htk_dir, 'mfc')
 if not os.path.exists(feature_dir):
@@ -72,42 +67,18 @@ if not os.path.exists(label_dir):
 	os.makedirs(label_dir)
 
 
-
-## ======================= extract features =======================
-if extract_features:
-	
-	for dataset in dataset_list:
-		print('==== extract features on dataset {} ====\n'.format(dataset))
-
-		# a script file for HCopy 
-		print(">>> making a script file for HCopy... \n")
-		hcopy_scp = tempfile.NamedTemporaryFile(mode='w', delete=False)
-		hcopy_scp.close()
-
-		# get a list of features (hcopy.scp) from the filelist in FAME! corpus
-		feature_dir_ = os.path.join(feature_dir, dataset)
-		if not os.path.exists(feature_dir_):
-			os.makedirs(feature_dir_)
-
-		# extract features
-		print(">>> extracting features... \n")
-		fame_functions.make_hcopy_scp_from_filelist_in_fame(default.fame_dir, dataset, feature_dir_, hcopy_scp.name)
-		pyhtk.wav2mfc(default.config_hcopy, hcopy_scp.name)
-
-		os.remove(hcopy_scp.name)
-
-
 ## ======================= make lexicon for HTK =======================
 if make_lexicon:
-	print('==== make lexicon for HTK ====\n')
+	timer_start = time.time()
+	print('==== making lexicon for HTK ====')
 
 	# convert each lexicon from fame_asr phoneset to fame_htk phoneset.
-	print('>>> converting each lexicon from fame_asr phoneset to fame_htk phoneset... \n')
+	print('>>> converting each lexicon from fame_asr phoneset to fame_htk phoneset...')
 	fame_functions.lexicon_asr2htk(lexicon_asr, lexicon_htk_asr)
 	fame_functions.lexicon_asr2htk(lexicon_oov, lexicon_htk_oov)
 
 	# combine lexicon
-	print('>>> combining lexicon files into one lexicon... \n')
+	print('>>> combining lexicon files into one lexicon...')
 	# pronunciations which is not found in lex.asr are generated using G2P and listed in lex.oov.
 	# therefore there is no overlap between lex_asr and lex_oov.   
 	fame_functions.combine_lexicon(lexicon_htk_asr, lexicon_htk_oov, lexicon_htk)
@@ -119,28 +90,26 @@ if make_lexicon:
 	# (2) Put a '\' before any dictionary entry beginning with single quote 
 	#http://electroblaze.blogspot.nl/2013/03/understanding-htk-error-messages.html
 	fame_functions.fix_single_quote(lexicon_htk)
+	print("elapsed time: {}".format(time.time() - timer_start))
 
 
-## ======================= make dic files =======================
-if make_dictionary:
+## ======================= make label files =======================
+if make_label:
 	for dataset in dataset_list:
 		timer_start = time.time()
-		print("==== generating HTK dictionary files on dataset {}\n".format(dataset))
+		print("==== making label files on dataset {}".format(dataset))
 
-		#hcompv_scp  = output_dir + '\\scp\\' + dataset + '.scp'
-		#hcompv_scp2 = output_dir + '\\scp\\' + dataset + '_all_words_in_lexicon.scp'
 		script_list = os.path.join(default.fame_dir, 'data', dataset, 'text')
-		#mlf_word	= output_dir + '\\label\\' + dataset + '_word.mlf'
-		#mlf_phone   = output_dir + '\\label\\' + dataset + '_phone.mlf'
-		wav_dir = os.path.join(default.fame_dir, 'fame', 'wav', dataset)
-		dictionary_file = os.path.join(wav_dir, 'temp.dic')
+		wav_dir_	= os.path.join(default.fame_dir, 'fame', 'wav', dataset)
+		label_dir_		= os.path.join(label_dir, dataset)
+		dictionary_file = os.path.join(label_dir_, 'temp.dic')
+		fh.make_new_directory(label_dir_)
 
 		# list of scripts 
 		with open(script_list, "rt", encoding="utf-8") as fin:
 			scripts = fin.read().split('\n')
 
 		for line in scripts:
-		#for line in ['sp0035m_train_1975_fragmentenvraaggesprekkenruilverkaveling_15413 en dat kan men nog meer']:
 			# sample line:
 			# sp0457m_test_1968_plakkenfryslanterhorne_2168 en dan begjinne je natuerlik
 			filename_ = line.split(' ')[0]
@@ -148,180 +117,144 @@ if make_dictionary:
 			sentence  = ' '.join(line.split(' ')[1:])
 			sentence_htk = fame_functions.word2htk(sentence)
 
-			wav_file = os.path.join(wav_dir, filename + '.wav')
-			if os.path.exists(wav_file):
-				#dictionary_file = os.path.join(wav_dir, filename + '.dic')
+			wav_file = os.path.join(wav_dir_, filename + '.wav')
+			if os.path.exists(wav_file) and pyhtk.can_be_ascii(sentence_htk) == 0:
 				if pyhtk.create_dictionary_without_log(
-					sentence, global_ded, dictionary_file, lexicon_htk) == 0:
+					sentence_htk, global_ded, dictionary_file, lexicon_htk) == 0:
 					# when the file name is too long, HDMan command does not work.
 					# therefore first temporary dictionary_file is made, then renamed. 
-					shutil.move(dictionary_file, os.path.join(wav_dir, filename + '.dic'))
-					label_file = os.path.join(wav_dir, filename + '.lab')
-					pyhtk.create_label_file(sentence, label_file)
+					shutil.move(dictionary_file, os.path.join(label_dir_, filename + '.dic'))
+
+					label_file = os.path.join(label_dir_, filename + '.lab')
+					pyhtk.create_label_file(sentence_htk, label_file)
 				else:
 					os.remove(dictionary_file)
 		print("elapsed time: {}".format(time.time() - timer_start))
 
-		# lexicon
-		#lexicon_htk = pd.read_table(lex_htk, names=['word', 'pronunciation'])
-
-		# list of features
-		#with open(hcompv_scp) as fin:
-		#	features = fin.read()
-		#	features = features.split('\n')
-		#i = 0
-		#missing_words = []
-		#fscp = open(hcompv_scp2, 'wt')
-		#fmlf = open(mlf_word, "wt", encoding="utf-8")
-		#fmlf.write("#!MLF!#\n")
-		#feature_nr = 1
-		#for feature in features:
-		#	sys.stdout.write("\r%d/%d" % (feature_nr, len(features)))
-		#	sys.stdout.flush()
-		#	feature_nr += 1
-		#	file_basename = os.path.basename(feature).replace('.mfc', '')
-		
-		#	# get words from scripts.
-		#	try:
-		#		script = scripts[scripts.str.contains(file_basename)]
-		#	except IndexError:
-		#		script = []
-
-		#	if len(script) != 0:
-		#		script_id  = script.index[0]
-		#		script_txt = script.get(script_id)
-		#		script_words = script_txt.split(' ')
-		#		del script_words[0]
-
-				# check if all words can be found in the lexicon.
-		#		SCRIPT_WORDS = []
-		#		script_prons = []
-		#		is_in_lexicon = 1
-		#		for word in script_words:
-		#			WORD = word.upper()
-		#			SCRIPT_WORDS.append(WORD)
-		#			extracted = lexicon_htk[lexicon_htk['word']==WORD]
-		#			if len(extracted) == 0:
-	#					missing_words.append(word)
-	#				script_prons.append(extracted)
-	#				is_in_lexicon *= len(extracted)
-
-				# if all pronunciations are found in the lexicon, update scp and mlf files.
-	#			if is_in_lexicon:
-					# add the feature filename into the .scp file.
-	#				fscp.write("{}\n".format(feature))
-	#				i += 1
-
-					# add the words to the mlf file.
-	#				fmlf.write('\"*/{}.lab\"\n'.format(file_basename))
-					#fmlf.write('{}'.format('\n'.join(SCRIPT_WORDS)))
-	#				for word_ in SCRIPT_WORDS:
-	#					if word_[0] == '\'':
-	#						word_ = '\\' + word_
-	#					fmlf.write('{}\n'.format(word_))
-	#				fmlf.write('.\n')
-	#	print("\n{0} has {1} samples.\n".format(dataset, i))
-	#	np.save(output_dir + '\\missing_words' + '_' + dataset + '.npy', missing_words)
-
-	#	fscp.close()
-	#	fmlf.close()
 
 ## ======================= make other required files =======================
 if make_htk_files:
-	## phonelist
-	phonelist_txt = os.path.join(default.htk_dir, 'config', 'phonelist.txt')
+	timer_start = time.time()
+	print("==== making files required for HTK ====")
+	
+	print(">>> making a phonelist...")
 	pyhtk.create_phonelist_file(fame_asr.phoneset_htk, phonelist_txt)
 
-	## hcomp_v.scp
-	print(">>> making a script file for HCompV... \n")
 	for dataset in dataset_list:
-		#timer_start = time.time()
+		wav_dir_	 = os.path.join(default.fame_dir, 'fame', 'wav', dataset)
+		feature_dir_ = os.path.join(feature_dir, dataset)
+		label_dir_   = os.path.join(label_dir, dataset)
+		mlf_word  = os.path.join(label_dir, dataset + '_word.mlf')
+		mlf_phone = os.path.join(label_dir, dataset + '_phone.mlf')
 
-		wav_dir = os.path.join(default.fame_dir, 'fame', 'wav', dataset)
+		#print(">>> making a script file for {}...".format(dataset))
+		#listdir    = glob.glob(os.path.join(wav_dir_, '*.dic'))
+		#mfc_list   = [filename.replace(wav_dir_, feature_dir_).replace('.dic', '.mfc') for filename in listdir]
+		#hcompv_scp = os.path.join(tmp_dir, dataset + '.scp')
+		#with open(hcompv_scp, 'wb') as f:
+		#	f.write(bytes('\n'.join(mfc_list) + '\n', 'ascii'))
 
-		listdir = glob.glob(os.path.join(wav_dir, '*.dic'))
-		filelist = [filename.replace(wav_dir, feature_dir).replace('.dic', '.fea') for filename in listdir]
+		print(">>> making a mlf file for {}...".format(dataset))
+		lab_list = glob.glob(os.path.join(label_dir_, '*.lab'))
+		with open(mlf_word, 'wb') as fmlf:
+			fmlf.write(bytes('#!MLF!#\n', 'ascii'))
+			for label_file in lab_list:
+				filename = os.path.basename(label_file)
+				fmlf.write(bytes('\"*/{}\"\n'.format(filename), 'ascii'))
+				with open(label_file) as flab:
+					lines = flab.read()
+				fmlf.write(bytes(lines + '.\n', 'ascii'))
 
-		hcompv_scp = os.path.join(tmp_dir, dataset + '.scp')
-		with open(hcompv_scp, 'wt', newline='\r\n') as f:
-			f.write('\n'.join(filelist))
+		print(">>> generating phone level transcription for {}...".format(dataset))
+		pyhtk.mlf_word2phone(lexicon_htk, mlf_phone, mlf_word, mkphones_led)
+		print("elapsed time: {}".format(time.time() - timer_start))
 
 
-## hcomp_scp
-# a script file for HCompV
+## ======================= extract features =======================
+if extract_features:
+	for dataset in dataset_list:
+		timer_start = time.time()
+		print('==== extract features on dataset {} ===='.format(dataset))
 
-	#	print("generating phone level transcription...\n")
-	#	mkphones = output_dir + '\\label\\mkphones0.txt'
-	#	subprocessStr = r"HLEd -l * -d " + lex_htk_ + ' -i ' + mlf_phone + ' ' + mkphones + ' ' + mlf_word
-	#	subprocess.call(subprocessStr, shell=True)
-	
+		wav_dir_ = os.path.join(default.fame_dir, 'fame', 'wav', dataset)
+		label_dir_   = os.path.join(label_dir, dataset)
+		feature_dir_ = os.path.join(feature_dir, dataset)
+		fh.make_new_directory(feature_dir_)
 
-## ======================= combined scps and mlfs =======================
-#if combine_files:
-#	print("==== combine scps and mlfs ====\n")
+		# a script file for HCopy 
+		print(">>> making a script file for HCopy...")
+		hcopy_scp = tempfile.NamedTemporaryFile(mode='w', delete=False)
+		hcopy_scp.close()
 
-#	fscp = open(hcompv_scp, 'wt')
-#	fmlf = open(combined_mlf, 'wt')
-
-#	for dataset in dataset_list:
-#		fmlf.write("#!MLF!#\n")
-#		for dataset in dataset_list:
-#			each_mlf = output_dir + '\\label\\' + dataset + '_phone.mlf'
-#			each_scp = output_dir + '\\scp\\' + dataset + '_all_words_in_lexicon.scp'
+		# get a list of features (hcopy.scp) 
+		# from the filelist in FAME! corpus.
+		#fame_functions.make_hcopy_scp_from_filelist_in_fame(default.fame_dir, dataset, feature_dir_, hcopy_scp.name)
+		# from the list of label files.
+		lab_list = glob.glob(os.path.join(label_dir_, '*.lab'))
+		feature_list = [
+			os.path.join(wav_dir_, os.path.basename(lab_file).replace('.lab', '.wav')) + '\t'
+			+ os.path.join(feature_dir_, os.path.basename(lab_file).replace('.lab', '.mfc'))
+				  for lab_file in lab_list]
+		with open(hcopy_scp.name, 'wb') as f:
+			f.write(bytes('\n'.join(feature_list), 'ascii'))
 		
-#		with open(each_mlf, 'r') as fin:
-#			lines = fin.read()
-#			lines = lines.split('\n')
-#		fmlf.write('\n'.join(lines[1:]))
+		# extract features.
+		print(">>> extracting features on {}...".format(dataset))
+		pyhtk.wav2mfc(config_hcopy, hcopy_scp.name)
+		os.remove(hcopy_scp.name)
 
-#		with open(each_scp, 'r') as fin:
-#			lines = fin.read()
-#		fscp.write(lines)
+		# make hcompv.scp.
+		print(">>> making a script file for {}...".format(dataset))
+		listdir    = glob.glob(os.path.join(label_dir_, '*.dic'))
+		mfc_list   = [filename.replace(label_dir_, feature_dir_).replace('.dic', '.mfc') for filename in listdir]
+		hcompv_scp = os.path.join(tmp_dir, dataset + '.scp')
+		with open(hcompv_scp, 'wb') as f:
+			f.write(bytes('\n'.join(mfc_list) + '\n', 'ascii'))
 
-#	fscp.close()
-#	fmlf.close()
+		print("elapsed time: {}".format(time.time() - timer_start))
 
 
 ## ======================= flat start monophones =======================
-if flat_start:	
-	subprocessStr = 'HCompV -T 1 -C ' + config_train + ' -m -v 0.01 -S ' + hcompv_scp + ' -M ' + model0_dir + ' ' + proto_init
-	subprocess.call(subprocessStr, shell=True)
+if flat_start:
+	hcompv_scp = os.path.join(tmp_dir, 'test.scp')
+
+	timer_start = time.time()
+	print('==== flat start ====')
+	pyhtk.flat_start(config_train, hcompv_scp, model0_dir, prototype)
 
 	# allocate mean & variance to all phones in the phone list
-	subprocessStr = 'perl ' + mkhmmdefs_pl + ' ' + model0_dir + '\\proto38' + ' ' + phonelist + ' > ' + model0_dir + '\\' + hmmdefs_name 
-	subprocess.call(subprocessStr, shell=True)
+	pyhtk.create_hmmdefs(
+		os.path.join(model0_dir, 'proto39'),
+	    os.path.join(model0_dir, 'hmmdefs'), 
+		phonelist_txt)
+	print("elapsed time: {}".format(time.time() - timer_start))
 
 
 ## ======================= estimate monophones =======================
-if train_model:
-	iter_num_max = 3
-	for mix_num in [128, 256, 512, 1024]:
-		for iter_num in range(1, iter_num_max+1):
-			print("===== mix{}, iter{} =====".format(mix_num, iter_num))
-			iter_num_pre = iter_num - 1
-			modelN_dir = model_dir + '\\hmm' + str(mix_num) + '-' + str(iter_num)
-			if not os.path.exists(modelN_dir):
-				os.makedirs(modelN_dir)
+if train_model_without_sp:
+	hcompv_scp = os.path.join(tmp_dir, 'test.scp')
+	mlf_file = os.path.join(label_dir, 'test_phone.mlf')
+	output_dir = os.path.join(model_dir, 'hmm1')
+	fh.make_new_directory(output_dir)
 
-			if iter_num == 1 and mix_num == 1:
-				modelN_dir_pre = model0_dir
-			else:
-				modelN_dir_pre = model_dir + '\\hmm' + str(mix_num) + '-' + str(iter_num_pre)
+	print('==== train model without sp ====')
+	if not os.path.exists(os.path.join(output_dir, 'iter0')):
+		shutil.copytree(model0_dir, os.path.join(output_dir, 'iter0'))
+	niter = 1
+	for niter in range(1, 5):
+		timer_start = time.time()
+		hmm_n = 'iter' + str(niter)
+		hmm_n_pre = 'iter' + str(niter-1)
+		modeln_dir	   = os.path.join(output_dir, hmm_n)
+		modeln_dir_pre = os.path.join(output_dir, hmm_n_pre) 
 		
-			## re-estimation
-			subprocessStr = 'HERest -T 1 -C ' + config_train + ' -v 0.01 -I ' + combined_mlf + ' -H ' + modelN_dir_pre + '\\' + hmmdefs_name + ' -M ' + modelN_dir + ' ' + phonelist + ' -S ' + hcompv_scp
-			subprocess.call(subprocessStr, shell=True)
-
-		mix_num_next = mix_num * 2
-		modelN_dir_next = model_dir + '\\hmm' + str(mix_num_next) + '-0'
-		if not os.path.exists(modelN_dir_next):
-			os.makedirs(modelN_dir_next)
-	
-		header_file = modelN_dir + '\\mix' + str(mix_num_next) + '.hed'
-		with open(header_file, 'w') as fout:
-			fout.write("MU %d {*.state[2-4].mix}" % (mix_num_next))
-
-		subprocessStr =	'HHEd -T 1 -H ' + modelN_dir + '\\' + hmmdefs_name + ' -M ' + modelN_dir_next + ' ' + header_file + ' ' + phonelist
-		
-		subprocess.call(subprocessStr, shell=True)
-
+		# re-estimation
+		fh.make_new_directory(modeln_dir)
+		pyhtk.re_estimation(
+			config_train,
+			os.path.join(modeln_dir_pre, 'proto39'),
+			os.path.join(modeln_dir_pre, hmmdefs_name), 
+			modeln_dir,
+			hcompv_scp, phonelist_txt,
+			mlf_file=mlf_file)
+		print("elapsed time: {}".format(time.time() - timer_start))
\ No newline at end of file
diff --git a/acoustic_model/test.txt b/acoustic_model/test.txt
deleted file mode 100644
index e69de29..0000000