מיון מחדש ושיפור מודל

NHLOCAL · Aug 31, 2024 · 5615906 · 5615906
1 parent f96729d
commit 5615906
Show file tree

Hide file tree

Showing 11 changed files with 53 additions and 4 deletions.
diff --git a/machine-learn/find_typename/trained_model.pkl b/machine-learn/find_typename/trained_model.pkl
diff --git a/machine-learn/find_typename/album_list.txt → ...ion/data_creation/data/raw_album_data.txt b/machine-learn/find_typename/album_list.txt → ...ion/data_creation/data/raw_album_data.txt
diff --git a/machine-learn/find_typename/chunked_text.txt → ...ta_creation/data/raw_random_text_data.txt b/machine-learn/find_typename/chunked_text.txt → ...ta_creation/data/raw_random_text_data.txt
diff --git a/machine-learn/find_typename/song_list.txt → ...tion/data_creation/data/raw_song_data.txt b/machine-learn/find_typename/song_list.txt → ...tion/data_creation/data/raw_song_data.txt
diff --git a/...learn/find_typename/create_album_names.py → ...a_creation/scripts/generate_album_data.py b/...learn/find_typename/create_album_names.py → ...a_creation/scripts/generate_album_data.py
diff --git a/...learn/find_typename/create_random_text.py → ...tion/scripts/generate_random_text_data.py b/...learn/find_typename/create_random_text.py → ...tion/scripts/generate_random_text_data.py
diff --git a/...-learn/find_typename/create_song_names.py → ...ta_creation/scripts/generate_song_data.py b/...-learn/find_typename/create_song_names.py → ...ta_creation/scripts/generate_song_data.py
diff --git a/machine-learn/find_typename/build_model.py → ...ssification/model_creation/build_model.py b/machine-learn/find_typename/build_model.py → ...ssification/model_creation/build_model.py
@@ -34,8 +34,8 @@
 
 # הגדרת רשת פרמטרים לבדיקה
 param_grid = {
-    'logisticregression__max_iter': [200, 500, 1000],  # בדיקת ערכים גדולים יותר
-    'tfidfvectorizer__ngram_range': [(1, 1), (1, 2)],
+    'logisticregression__max_iter': [200],  # בדיקת ערכים גדולים יותר
+    'tfidfvectorizer__ngram_range': [(1, 2)],
 }
 
 # יצירת אובייקט GridSearchCV
@@ -55,11 +55,11 @@
 print(f'דיוק המודל הטוב ביותר: {accuracy * 100:.2f}%')
 
 # שמירת המודל
-with open('trained_model.pkl', 'wb') as f:
+with open('music_classifier.pkl', 'wb') as f:
     pickle.dump(best_model, f)
 
 # טעינת המודל (לא חובה, רק להדגמה)
-with open('trained_model.pkl', 'rb') as f:
+with open('music_classifier.pkl', 'rb') as f:
     loaded_model = pickle.load(f)
 
 # דוגמה לשימוש במודל לחיזוי על טקסט חדש

diff --git a/machine-learn/find_typename/dataset.csv → ...classification/model_creation/dataset.csv b/machine-learn/find_typename/dataset.csv → ...classification/model_creation/dataset.csv
diff --git a/machine-learn/music_classification/model_creation/evaluate_model.py b/machine-learn/music_classification/model_creation/evaluate_model.py
@@ -0,0 +1,49 @@
+import pickle
+import csv
+from sklearn import metrics
+import matplotlib.pyplot as plt
+import seaborn as sns
+
+# מיפוי תוויות מספריות לשמות קטגוריות
+label_mapping = {0: "ARTIST", 1: "ALBUM", 2: "SONG", 3: "RANDOM"}
+
+# טעינת המודל
+with open('music_classifier.pkl', 'rb') as f:
+    loaded_model = pickle.load(f)
+
+# רשימות ריקות לטעינת הדאטה
+texts = []
+labels = []
+
+# קריאת הדאטה מקובץ CSV
+with open('dataset.csv', newline='', encoding='utf-8') as csvfile:
+    reader = csv.DictReader(csvfile)
+
+    for row in reader:
+        try:
+            texts.append(row['text'])
+            labels.append(int(row['label']))  # המרת תוויות למספרים שלמים
+        except Exception as e:
+            print(f"שגיאה בקריאת שורה: {e}, דילוג על שורה")
+
+# חיזוי על כל הדאטה
+predicted = loaded_model.predict(texts)
+
+# יצירת Confusion Matrix
+cm = metrics.confusion_matrix(labels, predicted)
+
+# ויזואליזציה של Confusion Matrix
+plt.figure(figsize=(10, 7))
+sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', 
+            xticklabels=label_mapping.values(), yticklabels=label_mapping.values())
+plt.xlabel('Predicted Label')
+plt.ylabel('True Label')
+plt.title('Confusion Matrix')
+plt.show()
+
+# הדפסת דוח סיווג
+print(metrics.classification_report(labels, predicted, target_names=label_mapping.values()))
+
+# חישוב דיוק כללי
+accuracy = metrics.accuracy_score(labels, predicted)
+print(f'דיוק כללי: {accuracy * 100:.2f}%')
diff --git a/machine-learn/music_classification/model_creation/music_classifier.pkl b/machine-learn/music_classification/model_creation/music_classifier.pkl