解锁机器学习：从零开始实现一个简单的分类器

jmartincufre · 发表于 4 天前

机器学习是一门应用广泛且前景广阔的技术，它可以帮助我们解决许多现实世界中的复杂问题。对于初学者来说，理解并实现一个简单的机器学习分类器是进入这个领域的重要一步。本文将带您从零开始，使用Python构建一个基本的分类器，并通过实际代码示例，逐步了解实现过程和背后的原理。
什么是机器学习分类器？
分类器是机器学习中的一种模型，它根据输入数据的特征将数据分为不同的类别。例如，垃圾邮件过滤器就是一种分类器，它可以根据电子邮件的内容来判断邮件是正常邮件还是垃圾邮件。常见的分类算法包括决策树、支持向量机（SVM）、k近邻算法（KNN）等。
准备工作
在开始之前，我们需要安装一些Python库来帮助我们进行数据处理和模型构建。本文将使用以下库：

Pandas：用于数据操作和分析。
NumPy：用于数值计算。
Scikit-learn：提供机器学习算法和工具。
Matplotlib 和 Seaborn：用于数据可视化。

您可以使用以下命令来安装这些库：
bash
复制代码
nmagh.xsjdyp.com/
bndue.xsjdyp.com/
iburk.xsjdyp.com/
naoee.xsjdyp.com/
dcofm.xsjdyp.com/
pip install pandas numpy scikit-learn matplotlib seaborn
步骤一：数据准备
我们将使用一个常见的鸢尾花（Iris）数据集进行分类器的构建。这个数据集包含了150条记录，每条记录包含四个特征：萼片长度、萼片宽度、花瓣长度和花瓣宽度，以及一个目标类别（鸢尾花的三种不同种类）。
python
复制代码
import pandas as pd
# 从sklearn库中加载数据集
from sklearn.datasets import load_iris
iris = load_iris()
# 创建一个DataFrame来存储数据
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['species'] = iris.target
print(df.head())
输出的数据框显示了前五条记录：
sepal length (cm)sepal width (cm)petal length (cm)petal width (cm)species5.13.51.40.204.93.01.40.204.73.21.30.204.63.11.50.205.03.61.40.20
数据可视化
我们可以通过可视化数据来更好地理解数据特征。这里我们使用Seaborn库来绘制数据分布图。
python
复制代码
import seaborn as sns
import matplotlib.pyplot as plt
# 使用pairplot绘制特征对之间的关系
sns.pairplot(df, hue='species', markers=["o", "s", "D"])
plt.show()
数据预处理
在构建分类器之前，我们需要对数据进行预处理，包括将数据分为训练集和测试集，以及标准化数据。
python
复制代码
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
# 分离特征和目标变量
X = df.drop('species', axis=1)
y = df['species']
# 将数据分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
# 标准化数据
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)
步骤二：构建分类器
我们将使用K近邻算法（KNN）来构建分类器。KNN是一种简单但有效的分类算法，它根据距离最近的k个邻居的类别来预测新数据点的类别。
python
复制代码
from sklearn.neighbors import KNeighborsClassifier
# 创建KNN分类器
knn = KNeighborsClassifier(n_neighbors=3)
# 使用训练集训练分类器
knn.fit(X_train, y_train)
# 预测测试集
y_pred = knn.predict(X_test)
模型评估
我们使用准确率、混淆矩阵和分类报告来评估模型的性能。
python
复制代码
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy:.2f}")
# 混淆矩阵
conf_matrix = confusion_matrix(y_test, y_pred)
print("Confusion Matrix:")
print(conf_matrix)
# 分类报告
class_report = classification_report(y_test, y_pred)
print("Classification Report:")
print(class_report)
输出的结果显示了模型的评估指标：
lua
复制代码
Accuracy: 0.98
Confusion Matrix:
[[16  0  0]
[ 0 15  1]
[ 0  0 13]]
Classification Report:
precision recall  f1-score support
0    1.00    1.00    1.00       16
1    1.00    0.94    0.97       16
2    0.93    1.00    0.96       13
accuracy                         0.98       45
macro avg    0.98    0.98    0.98       45
weighted avg    0.98    0.98    0.98       45
可视化模型预测
我们可以通过可视化测试集的预测结果来更好地理解模型的性能。
python
复制代码
# 绘制测试集的实际类别和预测类别
plt.figure(figsize=(10, 6))
plt.scatter(X_test[:, 0], X_test[:, 1], c=y_test, marker='o', label='True Labels')
plt.scatter(X_test[:, 0], X_test[:, 1], c=y_pred, marker='x', label='Predicted Labels', alpha=0.6)
plt.xlabel('Sepal Length (Standardized)')
plt.ylabel('Sepal Width (Standardized)')
plt.legend()
plt.title('KNN Classifier: True vs Predicted Labels')
plt.show()
结论
通过本文的介绍，我们从零开始，使用Python构建了一个简单的KNN分类器，并对其进行了评估和可视化。虽然这个示例比较简单，但它涵盖了机器学习分类器构建的基本流程，包括数据预处理、模型训练、评估和结果展示。希望这篇文章能帮助您更好地理解机器学习分类器的基本原理，并在未来的项目中应用这些知识和技能。

来源：
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！