cleaned up the INTERSPEECH related codes.

2018-03-25 21:56:08 +02:00 · 2018-03-25 21:56:08 +02:00 · eb65543781
commit eb65543781
parent a1379caced
33 changed files with 275 additions and 371 deletions
--- a/.vs/accent_classification/v15/.suo
+++ b/.vs/accent_classification/v15/.suo
--- a/dialect_identification.sln
+++ b/dialect_identification.sln
@ -3,8 +3,6 @@ Microsoft Visual Studio Solution File, Format Version 12.00
 # Visual Studio 15
 VisualStudioVersion = 15.0.26730.12
 MinimumVisualStudioVersion = 10.0.40219.1
-Project("{888888A0-9F3D-457C-B088-3A5042F75D52}") = "dialect_identification", "dialect_identification\dialect_identification.pyproj", "{FE1B1358-ADBE-4446-AFFD-A0802D13D15B}"
-EndProject
 Project("{2150E333-8FDC-42A3-9474-1A3956D46DE8}") = "Solution Items", "Solution Items", "{5A4286D1-F037-43D4-90F8-05C5CCC0CA30}"
 	ProjectSection(SolutionItems) = preProject
 		..\..\forced-alignment\forced_alignment\convert_phone_set.py = ..\..\forced-alignment\forced_alignment\convert_phone_set.py
@ -20,6 +18,8 @@ Project("{2150E333-8FDC-42A3-9474-1A3956D46DE8}") = "Solution Items", "Solution
 		..\..\forced-alignment\forced_alignment\test_environment.py = ..\..\forced-alignment\forced_alignment\test_environment.py
 	EndProjectSection
 EndProject
+Project("{888888A0-9F3D-457C-B088-3A5042F75D52}") = "accent_classification", "accent_classification\accent_classification.pyproj", "{FE1B1358-ADBE-4446-AFFD-A0802D13D15B}"
+EndProject
 Global
 	GlobalSection(SolutionConfigurationPlatforms) = preSolution
 		Debug|Any CPU = Debug|Any CPU
--- a/accent_classification/pycache/data_manipulation.cpython-36.pyc
+++ b/accent_classification/pycache/data_manipulation.cpython-36.pyc
--- a/accent_classification/pycache/evaluation.cpython-36.pyc
+++ b/accent_classification/pycache/evaluation.cpython-36.pyc
--- a/accent_classification/pycache/speaker_based_functions.cpython-36.pyc
+++ b/accent_classification/pycache/speaker_based_functions.cpython-36.pyc
--- a/dialect_identification/dialect_identification.pyproj
+++ b/dialect_identification/dialect_identification.pyproj
@ -5,7 +5,7 @@
    <ProjectGuid>fe1b1358-adbe-4446-affd-a0802d13d15b</ProjectGuid>
    <ProjectTypeGuids>{a41c8ea1-112a-4a2d-9f91-29557995525f};{888888a0-9f3d-457c-b088-3a5042f75d52}</ProjectTypeGuids>
    <ProjectHome>.</ProjectHome>
-    <StartupFile>output_confusion_matrix.py</StartupFile>
+    <StartupFile>speaker_based.py</StartupFile>
    <SearchPath>
    </SearchPath>
    <WorkingDirectory>.</WorkingDirectory>
@ -22,6 +22,8 @@
    <EnableUnmanagedDebugging>false</EnableUnmanagedDebugging>
  </PropertyGroup>
  <ItemGroup>
+    <Compile Include="data_io.py" />
+    <Compile Include="data_manipulation.py" />
    <Compile Include="manipulate_db.py">
      <SubType>Code</SubType>
    </Compile>
@ -29,9 +31,6 @@
      <SubType>Code</SubType>
    </Compile>
    <Compile Include="classifier.py" />
-    <Compile Include="dataManipulation.py">
-      <SubType>Code</SubType>
-    </Compile>
    <Compile Include="output_confusion_matrix.py">
      <SubType>Code</SubType>
    </Compile>
@ -53,7 +52,6 @@
    <Compile Include="word_based.py">
      <SubType>Code</SubType>
    </Compile>
-    <Compile Include="dataIO.py" />
  </ItemGroup>
  <ItemGroup>
    <Content Include="config.ini" />
--- a/dialect_identification/audio2db.py
+++ b/dialect_identification/audio2db.py
@ -1,6 +1,5 @@
 import os
 import sys
-import configparser

 import numpy as np
 import pypyodbc
@ -20,16 +19,10 @@ sys.path.append(forced_alignment_module)
 from forced_alignment import forced_alignment


-## check if forced-alignment work in each sentence
+## delete all automatically generated pronunciations
 #from forced_alignment import pronunciations
 #pronunciations.delete_all_g2p_entries()

-#wav_file = wav_dir + '\\10\\' + regionLabels[0] + '\\9935-1464218044-1951631.wav'
-#script_file = script_dir + '\\script10.txt'
-#with open(script_file, 'r') as fin:
-#	script = fin.readline()
-#fa = forced_alignment(wav_file, script)
-

 ## make database connection
 param = r"Driver={Microsoft Access Driver (*.mdb, *.accdb)};dbq=" + fileMDB + ";"
--- a/dialect_identification/classifier.py
+++ b/dialect_identification/classifier.py
--- a/dialect_identification/config.ini
+++ b/dialect_identification/config.ini
--- a/dialect_identification/data_io.py
+++ b/dialect_identification/data_io.py
--- a/dialect_identification/data_manipulation.py
+++ b/dialect_identification/data_manipulation.py
--- a/dialect_identification/evaluation.py
+++ b/dialect_identification/evaluation.py
--- a/dialect_identification/manipulate_db.py
+++ b/dialect_identification/manipulate_db.py
--- a/dialect_identification/output_confusion_matrix.py
+++ b/dialect_identification/output_confusion_matrix.py
--- a/dialect_identification/sentence_based.py
+++ b/dialect_identification/sentence_based.py
--- a/accent_classification/speaker_based.py
+++ b/accent_classification/speaker_based.py
@ -0,0 +1,267 @@
+import os
+import sys
+import configparser
+
+import pypyodbc
+import numpy as np
+from collections import Counter
+import matplotlib.pyplot as plt
+
+from sklearn.model_selection import train_test_split
+from sklearn.model_selection import cross_val_score
+from sklearn import preprocessing
+from sklearn.metrics import confusion_matrix
+from sklearn.metrics import accuracy_score
+
+repo_dir = 'C:\\Users\\Aki\\source\\repos\\accent_classification'
+curr_dir = repo_dir + '\\accent_classification'
+sys.path.append(os.path.join(os.path.dirname(sys.path[0]), curr_dir))
+import data_manipulation as mani
+import evaluation as eval
+import speaker_based_functions as sb_func
+
+
+## ======================= user define =======================
+sentence_num_max = 10
+config_file = curr_dir + '\\config.ini'
+output_dir = repo_dir + '\\output'
+
+# make train/test set: 1, load: 0
+make_train_test_set = 0
+
+# specify which experiment to be performed.
+# - 3: groninven vs oost_overijssel vs limburg
+# - 2: groningen vs limburg
+experiment_type = 2
+
+region_labels3 = ['Groningen_and_Drenthe', 'Oost_Overijsel-Gelderland', 'Limburg']
+region_labels2 = ['Groningen_and_Drenthe', 'Limburg']	
+
+
+## ======================= data preparation =======================
+
+## load variables from the ini file
+config = configparser.ConfigParser()
+config.sections()
+config.read(config_file)
+MDB_file = config['sentence_based']['fileMDB']
+
+
+## connect to the database
+pypyodbc.lowercase = False
+param = r"Driver={Microsoft Access Driver (*.mdb, *.accdb)};dbq=" + MDB_file + ";"
+conn = pypyodbc.connect(param)
+cursor = conn.cursor()
+
+
+## get data from Access database
+# data format
+#	0: filename
+#	1: pid
+#	2: region
+#	3: ID (unique word_id)
+#	4: sentence_id
+#	5: word_id
+#	6: word
+#	7: pronunciation
+SQL_string = """\
+{CALL dataset_with_cities}
+"""
+cursor.execute(SQL_string)
+
+rows = cursor.fetchall()
+data = np.array(rows)
+del SQL_string, rows
+
+
+## get the list of pronunciation variant (pronvarList) from Access database 
+# pronvarList format
+#	0: ID (unique word_id)
+#	1: word
+#	2: pronvar
+SQL_string = """\
+{CALL pronunciation_variant}
+"""
+cursor.execute(SQL_string)
+rows = cursor.fetchall()
+pronvarList = np.array(rows)
+del SQL_string, rows
+
+conn.close()
+
+
+## make list of LabelBinarizer object per word for X (=pronunciation variant).
+LB_list = []
+unique_wordID_list = data[:, 3].astype(int)
+unique_wordID_max  = max(unique_wordID_list)
+for unique_wordID in range(1, unique_wordID_max+1):
+	pronvar = data[unique_wordID_list == unique_wordID, 7]
+	LB = preprocessing.LabelBinarizer()
+	LB.fit(np.unique(pronvar))
+	LB_list.append(LB)
+
+
+## make LabelEncorder/LabelBinilizer objects for y (=region).
+LE_y3 = preprocessing.LabelEncoder()
+LE_y3.fit(region_labels3)
+LE_y2 = preprocessing.LabelEncoder()
+LE_y2.fit(region_labels2)
+
+LB_y3 = preprocessing.LabelBinarizer()
+LB_y3.fit(region_labels3)
+LB_y2 = preprocessing.LabelBinarizer()
+LB_y2.fit(region_labels2)
+
+del unique_wordID, unique_wordID_max, pronvar, LB
+
+
+
+## ======================= make train/eval/test set or load =======================
+
+## find the smallest group to balance the number of samples per group.
+pidlist3 = np.unique(data[:, (1, 2)], axis=0)
+pidlist3_counter = Counter(pidlist3[:, 1])
+sample_num_max = min(pidlist3_counter.values())
+del pidlist3_counter
+
+
+## make train/eval/test set or load them.
+
+if make_train_test_set==1:
+	pidlist3_train = []
+	pidlist3_eval  = []
+	pidlist3_test  = []
+	for region_num in range(0, len(region_labels3)):
+		region_name = region_labels3[region_num]
+
+		pidlist3_per_region_ = pidlist3[pidlist3[:, 1]==region_labels3[region_num], :]
+		pidlist3_per_region, idx = mani.extractRandomSample(
+			pidlist3_per_region_, sample_num_max)
+
+		# split dataset into train, eval and test.
+		[pidlist3_per_region_train, pidlist3_per_region_test] = train_test_split(
+			pidlist3_per_region, test_size = 0.2, random_state = 0)
+		[pidlist3_per_region_train, pidlist3_per_region_eval] = train_test_split(
+			pidlist3_per_region_train, test_size = 0.1, random_state = 0)
+
+		# append numpy arrays.
+		if region_num == 0:
+			pidlist3_train = pidlist3_per_region_train
+			pidlist3_eval  = pidlist3_per_region_eval
+			pidlist3_test  = pidlist3_per_region_test
+		else:
+			pidlist3_train = np.r_[pidlist3_train, pidlist3_per_region_train]
+			pidlist3_eval  = np.r_[pidlist3_eval, pidlist3_per_region_eval]
+			pidlist3_test  = np.r_[pidlist3_test, pidlist3_per_region_test]
+	del region_num, region_name
+	del pidlist3_per_region_, pidlist3_per_region, idx
+	del pidlist3_per_region_train, pidlist3_per_region_eval, pidlist3_per_region_test
+	np.save(output_dir + "\\pidlist3_train.npy", pidlist3_train)
+	np.save(output_dir + "\\pidlist3_eval.npy", pidlist3_eval)
+	np.save(output_dir + "\\pidlist3_test.npy", pidlist3_test)
+
+
+	if experiment_type == 2:
+		pidlist2_train_ = np.r_[pidlist3_train, pidlist3_eval]
+
+		pidlist2_train = sb_func.groningen_vs_limburg(pidlist2_train_)
+		pidlist2_test  = sb_func.groningen_vs_limburg(pidlist3_test)
+		np.save(output_dir + "\\pidlist2_train", pidlist2_train)
+		np.save(output_dir + "\\pidlist2_test", pidlist2_test)
+
+		del pidlist2_train_
+else:
+	pidlist3_train = np.load(output_dir + "\\pidlist3_train.npy")
+	pidlist3_eval  = np.load(output_dir + "\\pidlist3_eval.npy")
+	pidlist3_test  = np.load(output_dir + "\\pidlist3_test.npy")
+
+	if experiment_type == 2:
+		pidlist2_train = np.load(output_dir + "\\pidlist2_train.npy")
+		pidlist2_test  = np.load(output_dir + "\\pidlist2_test.npy")
+
+
+## extract corresponding data using pid
+
+data3_train = sb_func.extractPid(pidlist3_train, data)
+data3_eval  = sb_func.extractPid(pidlist3_eval, data)
+data3_test  = sb_func.extractPid(pidlist3_test, data)
+
+if experiment_type == 2:
+	data2 = np.array(data)
+	data2_train = sb_func.extractPid(pidlist2_train, data2)
+	data2_test  = sb_func.extractPid(pidlist2_test, data2)
+
+
+## ======================= experiments =======================
+
+## specify the dataset
+
+# train vs eval
+#trainData = data3_train
+#testData  = data3_eval
+#testPID   = pidlist3_eval
+#LB = LB_y3
+#LE = LE_y3
+#region_labels = region_labels3
+
+# train+eval vs test
+if experiment_type == 3:
+	trainData = np.r_[data3_train, data3_eval]
+	testData  = data3_test
+	testPID   = pidlist3_test
+	LB = LB_y3
+	LE = LE_y3
+	region_labels = region_labels3
+
+elif experiment_type == 2:
+	trainData = data2_train
+	testData  = data2_test
+	testPID   = pidlist2_test
+	LB = LB_y2
+	LE = LE_y2
+	region_labels = region_labels2
+
+## check the number of utterance
+#data_all = np.r_[trainData, testData]
+#filenames = np.c_[data_all[:, 0], data_all[:, 2]]
+#filenames_unique = np.unique(filenames, axis=0)
+#Counter(filenames_unique[:, 1])
+
+
+## output filenames
+fileComparison		= output_dir + "\\algorithm_comparison.csv"
+filePerformance		= output_dir + "\\sentence-level.csv"
+fileConfusionMatrix = output_dir + "\\confusion_matrix.csv"
+
+
+## compare classification algorithms for the sentence-classifiers.
+#sb_func.compare_sentence_level_classifiers(trainData, LB_list, LE, fileComparison)
+
+
+## train sentence-level classifiers.
+model_list, score_list, confusion_matrix_list = sb_func.train_sentence_level_classifiers(
+	trainData, LB_list, LE, filePerformance)
+
+
+## prediction over evaluation data per each sentence-level classifier.
+pred_per_sentence = sb_func.prediction_per_sentence(testData, model_list, LB_list, LE)
+
+
+## combine sentence-level classifiers 
+pred_per_pid_majority = sb_func.prediction_per_pid_majority(testPID, pred_per_sentence)
+
+
+## confusion matrix
+confusionMatrix_majority = confusion_matrix(
+	pred_per_pid_majority[:, 1], pred_per_pid_majority[:, 2], labels=region_labels)
+
+
+## output
+accuracy = accuracy_score(pred_per_pid_majority[:, 1], pred_per_pid_majority[:, 2], normalize=True, sample_weight=None)
+print('accuracy: {}%'.format(accuracy * 100))
+
+cm = confusionMatrix_majority
+print(cm)
+
+np.save(output_dir + "\\pred_per_pid2.npy", pred_per_pid_majority)
+np.save(output_dir + "\\confusion_matrix2.npy", cm)
--- a/dialect_identification/speaker_based_functions.py
+++ b/dialect_identification/speaker_based_functions.py
@ -14,7 +14,7 @@ from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis
 from sklearn.model_selection import cross_val_score
 from sklearn.metrics import confusion_matrix

-import dataManipulation as mani
+import data_manipulation as mani
 import evaluation as eval


@ -338,34 +338,6 @@ def prediction_per_pid_weighted(pidlist_eval, prediction, weight, LB_y, LE_y):
 	return np.array(prediction_per_pid)


-def saxon_vs_limburg(pidlist3):
-	"""convert a pidlist for 3 regions into that for 2 regions.
-
-	Notes:
-		3 regions include ['Groningen_and_Drenthe', 'Limburg', 'Oost_Overijsel-Gelderland']
-		2 regions include ['Limburg', 'Low_Saxon']
-		where Low_Saxon = 'Groningen_and_Drenthe' + 'Oost_Overijsel-Gelderland'
-		samples are randomly chosen so that each class has the same amount of data. 
-
-	"""
-
-	regionLabels  = ['Groningen_and_Drenthe', 'Limburg', 'Oost_Overijsel-Gelderland']
-	regionLabels2 = ['Low_Saxon', 'Limburg']
-
-	index_saxon = np.any([pidlist3[:, 1] == regionLabels[0], pidlist3[:, 1] == regionLabels[2]], axis=0)
-	pidlist_saxon_  = pidlist3[index_saxon, :]
-	pidlist_limburg = pidlist3[pidlist3[:, 1] == regionLabels[1], :]
-	
-	# extract the same amout of samples as Limburg. 
-	pidlistCounter3 = Counter(pidlist3[:, 1])
-	pidlist_saxon, idx = mani.extractRandomSample(pidlist_saxon_, pidlistCounter3['Limburg'])
-	pidlist_saxon[:, 1] = regionLabels2[0]
-
-	pidlist2 = np.r_[pidlist_limburg, pidlist_saxon]
-	#pidlistCounter2 = Counter(pidlist2[:, 1])
-	return pidlist2
-
-
 def groningen_vs_limburg(pidlist3):
 	"""convert a pidlist for 3 regions into that for 2 regions.

@ -374,7 +346,7 @@ def groningen_vs_limburg(pidlist3):
 		2 regions include ['Groningen_and_Drenthe', 'Limburg']

 	"""
-	regionLabels  = ['Groningen_and_Drenthe', 'Limburg', 'Oost_Overijsel-Gelderland']
+	regionLabels  = ['Groningen_and_Drenthe', 'Oost_Overijsel-Gelderland', 'Limburg']

 	pidlist_groningen = pidlist3[pidlist3[:, 1] == regionLabels[0], :] 
 	pidlist_limburg   = pidlist3[pidlist3[:, 1] == regionLabels[1], :]
--- a/dialect_identification/test_code.py
+++ b/dialect_identification/test_code.py
--- a/dialect_identification/word_based.py
+++ b/dialect_identification/word_based.py
--- a/dialect_identification/speaker_based.py
+++ b/dialect_identification/speaker_based.py
@ -1,326 +0,0 @@
-import os
-import sys
-import configparser
-
-import pypyodbc
-import numpy as np
-from collections import Counter
-import matplotlib.pyplot as plt
-
-from sklearn.model_selection import train_test_split
-from sklearn.model_selection import cross_val_score
-from sklearn import preprocessing
-from sklearn.metrics import confusion_matrix
-from sklearn.metrics import accuracy_score
-
-currDir = 'C:\\Users\\Aki\\source\\repos\\rug_VS\\dialect_identification\\dialect_identification'
-sys.path.append(os.path.join(os.path.dirname(sys.path[0]), currDir))
-import dataManipulation as mani
-import evaluation as eval
-import speaker_based_functions as sb_func
-
-
-#####################
-##   USER DEFINE   ##
-#####################
-sentenceNumMax = 10
-configFile = currDir + '\\config.ini'
-dirOut = currDir + '\\result'
-
-# make train/test set: 1, load: 0
-makeTrainTestSet = 0
-# convert 3 regions to 2 regions: 1, load: 0
-conv3to2region   = 0
-
-# 3 regions: 0
-# saxon vs limburg: 1
-# groningen vs limburg: 2
-experiment_type = 2
-
-regionLabels  = ['Groningen_and_Drenthe', 'Limburg', 'Oost_Overijsel-Gelderland']
-
-# a bit useless error handling.
-#assert (experiment_type in (0, 1, 2)), "experiment type should be 0, 1 or 2."
-if experiment_type == 1:
-	regionLabels2 = ['Low_Saxon', 'Limburg'] 
-regionLabels2 = ['Groningen_and_Drenthe', 'Limburg']	
-
-
-##########################
-##   DATA PREPARATION   ##
-##########################
-
-## load init file
-config = configparser.ConfigParser()
-config.sections()
-config.read(configFile)
-dirFeature = config['sentence_based']['dirFeature']
-fileMDB = config['sentence_based']['fileMDB']
-
-
-## database connection
-pypyodbc.lowercase = False
-param = r"Driver={Microsoft Access Driver (*.mdb, *.accdb)};dbq=" + fileMDB + ";"
-conn = pypyodbc.connect(param)
-cursor = conn.cursor()
-
-
-## get data from Access database
-# data format
-#	0: filename
-#	1: pid
-#	2: region
-#	3: ID (unique word_id)
-#	4: sentence_id
-#	5: word_id
-#	6: word
-#	7: pronunciation
-SQL_string = """\
-{CALL dataset_with_cities}
-"""
-cursor.execute(SQL_string)
-
-rows = cursor.fetchall()
-data = np.array(rows)
-#dataNumMax = data.shape[0]
-#uniqueWordIDmax = max(data[:, 3].astype(int))
-del SQL_string, rows
-
-
-## make list of LabelBinarizer object per word.
-# for X
-# get pronvarList from Access database 
-# pronvarList format
-#	0: ID (unique word_id)
-#	1: word
-#	2: pronvar
-SQL_string = """\
-{CALL pronunciation_variant}
-"""
-cursor.execute(SQL_string)
-rows = cursor.fetchall()
-pronvarList = np.array(rows)
-del SQL_string, rows
-
-
-LBlist = []
-#uniqueWordIDlist = pronvarList[:, 0].astype(int)
-uniqueWordIDlist = data[:, 3].astype(int)
-uniqueWordIDmax  = max(uniqueWordIDlist)
-for uniqueWordID in range(1, uniqueWordIDmax+1):
-	pronvar = data[uniqueWordIDlist == uniqueWordID, 7]
-	#pronvar = pronvarList[pronvarList[:, 0] == uniqueWordID, 2]
-	LB = preprocessing.LabelBinarizer()
-	LB.fit(np.unique(pronvar))
-	LBlist.append(LB)
-
-# for y (=region)
-LE_y = preprocessing.LabelEncoder()
-LE_y.fit(regionLabels)
-LE_y2 = preprocessing.LabelEncoder()
-LE_y2.fit(regionLabels2)
-
-LB_y = preprocessing.LabelBinarizer()
-LB_y.fit(regionLabels)
-LB_y2 = preprocessing.LabelBinarizer()
-LB_y2.fit(regionLabels2)
-
-del uniqueWordID, uniqueWordIDmax, pronvar, LB
-
-
-#################
-##  ITERATION  ##
-#################
-#CM_majority = np.zeros((1, 9)).astype(int)
-#CM_weighted = np.zeros((1, 9)).astype(int)
-#for iter in range(0, 1):
-#	print(iter)
-
-## make balanced dataset
-pidlist = np.unique(data[:, (1, 2)], axis=0)
-
-# count number of samples
-pidlistCounter = Counter(pidlist[:, 1])
-sampleNumMax = min(pidlistCounter.values())
-del pidlistCounter
-
-
-## make train/eval/test set or load
-if makeTrainTestSet==1:
-	pidlist_train = []
-	pidlist_eval  = []
-	pidlist_test  = []
-	for regionNum in range(0, len(regionLabels)):
-		regionName = regionLabels[regionNum]
-
-		pidlist_per_region_ = pidlist[pidlist[:, 1]==regionLabels[regionNum], :]
-		pidlist_per_region, idx = mani.extractRandomSample(
-			pidlist_per_region_, sampleNumMax)
-
-		# split dataset into train, eval and test.
-		[pidlist_per_region_train, pidlist_per_region_test] = train_test_split(
-			pidlist_per_region, test_size = 0.2, random_state = 0)
-		[pidlist_per_region_train, pidlist_per_region_eval] = train_test_split(
-			pidlist_per_region_train, test_size = 0.1, random_state = 0)
-
-		# append numpy arrays
-		if regionNum == 0:
-			pidlist_train = pidlist_per_region_train
-			pidlist_eval  = pidlist_per_region_eval
-			pidlist_test  = pidlist_per_region_test
-		else:
-			pidlist_train = np.r_[pidlist_train, pidlist_per_region_train]
-			pidlist_eval  = np.r_[pidlist_eval, pidlist_per_region_eval]
-			pidlist_test  = np.r_[pidlist_test, pidlist_per_region_test]
-	del regionNum, regionName
-	del pidlist_per_region_, pidlist_per_region, idx
-	del pidlist_per_region_train, pidlist_per_region_eval, pidlist_per_region_test
-	np.save(dirOut + "\\pidlist_train.npy", pidlist_train)
-	np.save(dirOut + "\\pidlist_eval.npy", pidlist_eval)
-	np.save(dirOut + "\\pidlist_test.npy", pidlist_test)
-else:
-	pidlist_train = np.load(dirOut + "\\pidlist_train.npy")
-	pidlist_eval  = np.load(dirOut + "\\pidlist_eval.npy")
-	pidlist_test  = np.load(dirOut + "\\pidlist_test.npy")
-
-
-## make dataset for 2 regions or load
-if conv3to2region==1:
-	pidlist2_train_ = np.r_[pidlist_train, pidlist_eval]
-
-	if experiment_type == 1:
-		pidlist2_train = sb_func.saxon_vs_limburg(pidlist2_train_)
-		pidlist2_test  = sb_func.saxon_vs_limburg(pidlist_test)	
-		np.save(dirOut + "\\pidlist2_saxon_vs_limburg_train", pidlist2_train)
-		np.save(dirOut + "\\pidlist2_saxon_vs_limburg_test", pidlist2_test)
-	
-	elif experiment_type == 2:
-		pidlist2_train = sb_func.groningen_vs_limburg(pidlist2_train_)
-		pidlist2_test  = sb_func.groningen_vs_limburg(pidlist_test)
-		np.save(dirOut + "\\pidlist2_groningen_vs_limburg_train", pidlist2_train)
-		np.save(dirOut + "\\pidlist2_groningen_vs_limburg_test", pidlist2_test)
-
-	del pidlist2_train_
-else:
-	if experiment_type == 1:
-		pidlist2_train = np.load(dirOut + "\\pidlist2_saxon_vs_limburg_train.npy")
-		pidlist2_test  = np.load(dirOut + "\\pidlist2_saxon_vs_limburg_test.npy")
-
-	elif experiment_type == 2:
-		pidlist2_train = np.load(dirOut + "\\pidlist2_groningen_vs_limburg_train.npy")
-		pidlist2_test  = np.load(dirOut + "\\pidlist2_groningen_vs_limburg_test.npy")
-
-
-## train/test data
-if experiment_type == 0:
-	# Groningen vs Overijsel vs Limburg
-	data_train = sb_func.extractPid(pidlist_train, data)
-	data_eval  = sb_func.extractPid(pidlist_eval, data)
-	data_test  = sb_func.extractPid(pidlist_test, data)
-
-elif experiment_type == 1 or experiment_type == 2:
-	data2 = np.array(data)
-
-	if experiment_type == 1:
-		for row, row2 in zip(data, data2):
-			if row[2] == regionLabels[0] or row[2] == regionLabels[2]:
-				row2[2] = regionLabels2[0]
-
-	data2_train = sb_func.extractPid(pidlist2_train, data2)
-	data2_test  = sb_func.extractPid(pidlist2_test, data2)
-
-
-#####################################
-##   EXPERIMENTS START FROM HERE   ##
-#####################################
-
-## actual training
-# train vs eval
-#trainData = data_train
-#testData  = data_eval
-#testPID   = pidlist_eval
-#LB = LB_y
-#LE = LE_y
-#regionLabels = regionLabels3
-
-# train+eval vs test
-if experiment_type == 0:
-	trainData = np.r_[data_train, data_eval]
-	testData  = data_test
-	testPID   = pidlist_test
-	LB = LB_y
-	LE = LE_y
-elif experiment_type == 1 or experiment_type == 2:
-# 2 region: saxon vs limburg/ groningen vs limburg
-	trainData = data2_train
-	testData  = data2_test
-	testPID   = pidlist2_test
-	LB = LB_y2
-	LE = LE_y2
-	regionLabels = regionLabels2
-
-
-# check the number of utterance
-allData = np.r_[trainData, testData]
-filenames = np.c_[allData[:, 0], allData[:, 2]]
-filenames_unique = np.unique(filenames, axis=0)
-Counter(filenames_unique[:, 1])
-
-
-fileComparison		= dirOut + "\\algorithm_comparison.csv"
-filePerformance		= dirOut + "\\sentence-level.csv"
-fileConfusionMatrix = dirOut + "\\confusion_matrix.csv"
-
-## compare classification algorithms for the sentence-classifiers.
-#sb_func.compare_sentence_level_classifiers(trainData, LBlist, LE, fileComparison)
-
-## train sentence-level classifiers.
-modelList, scoreList, confusionMatrixList = sb_func.train_sentence_level_classifiers(
-	trainData, LBlist, LE, filePerformance)
-
-## prediction over evaluation data per each sentence-level classifier.
-pred_per_sentence = sb_func.prediction_per_sentence(testData, modelList, LBlist, LE)
-
-## combine sentence-level classifiers 
-pred_per_pid_majority = sb_func.prediction_per_pid_majority(testPID, pred_per_sentence)
-
-## majority vote (weighted)
-#weight = sb_func.calc_weight(confusionMatrixList)
-#pred_per_pid_weighted = sb_func.prediction_per_pid_weighted(testPID, pred_per_sentence, weight, LB, LE)
-
-### confusion matrix
-if experiment_type == 0:
-	confusionMatrix_majority = confusion_matrix(
-		pred_per_pid_majority[:, 1], pred_per_pid_majority[:, 2], labels=['Groningen_and_Drenthe', 'Oost_Overijsel-Gelderland', 'Limburg'])
-else:
-	confusionMatrix_majority = confusion_matrix(
-		pred_per_pid_majority[:, 1], pred_per_pid_majority[:, 2], labels=['Groningen_and_Drenthe', 'Limburg'])
-
-	#confusionMatrix_weighted = confusion_matrix(
-#	pred_per_pid_weighted[:, 1], pred_per_pid_weighted[:, 2], labels=regionLabels)
-
-
-## output
-accuracy = accuracy_score(pred_per_pid_majority[:, 1], pred_per_pid_majority[:, 2], normalize=True, sample_weight=None)
-print('accuracy: {}%'.format(accuracy * 100))
-
-cm = confusionMatrix_majority
-print(cm)
-
-np.save(dirOut + "\\pred_per_pid.npy", pred_per_pid_majority)
-np.save(dirOut + "\\confusion_matrix.npy", cm)
-
-#fout = open(fileConfusionMatrix, "w")
-#fout.write('< confusion matrix for majority vote in evaluation set >\n')
-#sb_func.outputConfusionMatrix33('fout', 'confusionMatrix_majority', regionLabels)
-#fout.write('< confusion matrix for weighted vote in evaluation set >\n')
-#sb_func.outputConfusionMatrix33('fout', 'confusionMatrix_weighted', regionLabels)
-#fout.write('\n')
-#fout.close()
-
-
-##### iteration finish #####
-conn.close()
-#np.savetxt(dirOut + '\\cm_majority.csv', CM_majority, delimiter=',') 
-#np.savetxt(dirOut + '\\cm_weighted.csv', CM_weighted, delimiter=',') 
-
--- a/output/confusion_matrix_2regions.npy
+++ b/output/confusion_matrix_2regions.npy
--- a/output/confusion_matrix_2regions.png
+++ b/output/confusion_matrix_2regions.png
--- a/output/confusion_matrix_2regions_normalized.png
+++ b/output/confusion_matrix_2regions_normalized.png
--- a/output/confusion_matrix_3regions.npy
+++ b/output/confusion_matrix_3regions.npy
--- a/output/confusion_matrix_3regions.png
+++ b/output/confusion_matrix_3regions.png
--- a/output/confusion_matrix_3regions_normalized.png
+++ b/output/confusion_matrix_3regions_normalized.png
--- a/output/pidlist_2regions_test.npy
+++ b/output/pidlist_2regions_test.npy
--- a/output/pidlist_2regions_train.npy
+++ b/output/pidlist_2regions_train.npy
--- a/output/pidlist_3regions_eval.npy
+++ b/output/pidlist_3regions_eval.npy
--- a/output/pidlist_3regions_test.npy
+++ b/output/pidlist_3regions_test.npy
--- a/output/pidlist_3regions_train.npy
+++ b/output/pidlist_3regions_train.npy
--- a/output/pred_per_pid_2regions.npy
+++ b/output/pred_per_pid_2regions.npy
--- a/output/pred_per_pid_3regions.npy
+++ b/output/pred_per_pid_3regions.npy