数据挖掘实验报告
基于weka的数据分类分析实验报告
1实验基本内容
本实验的基本内容是通过使用weka中的三种常见分类和聚类方法(决策树J48、KNN和k-means)分别在训练数据上训练出分类模型,并使用校验数据对各个模型进行测试和评价,找出各个模型最优的参数值,并对三个模型进行全面评价比较,得到一个最好的分类模型以及该模型所有设置的最优参数。最后使用这些参数以及训练集和校验集数据一起构造出一个最优分类器,并利用该分类器对测试数据进行预测。
2数据的准备及预处理
2.1格式转换方法
(1)打开“data02.xls” 另存为CSV类型,得到“data02.csv”。
(2)在WEKA中提供了一个“Arff Viewer”模块,打开一个“data02.csv”进行浏览,然后另存为ARFF文件,得到“data02.arff”。
。
3. 实验过程及结果截图
3.1决策树分类
(1)决策树分类
用“Explorer”打开数据“data02.arff”,然后切换到“Classify”。点击“Choose”,选择算法“trees-J48”,再在“Test options”选择“Cross-validation(Flods=10)”,点击“Start”,开始运行。
1
数据挖掘实验报告
系统默认trees-J48决策树算法中minNumObj=2,得到如下结果 === Summary ===
Correctly Classified Instances 23 88.4615 % Incorrectly Classified Instances 3 11.5385 % Kappa statistic 0.7636 Mean absolute error 0.141 Root mean squared error 0.3255 Relative absolute error 30.7368 % Root relative squared error 68.0307 % Total Number of Instances 26 === Detailed Accuracy By Class ===
TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.824 0 1 0.824 0.903 0.892 N 1 0.176 0.75 1 0.857 0.892 Y Weighted Avg. 0.885 0.061 0.913 0.885 0.887 0.892 === Confusion Matrix === a b <-- classified as 14 3 | a = N 0 9 | b = Y
使用不同的参数准确率比较: minNumObj Correctly Classified Instances 2 3 4 5 23 22 23 23 (88.4615 %) (84.6154 %) (88.4615 %) (88.4615 %) 2
数据挖掘实验报告
由上表,可知minNumObj为2时,准确率最高。 根据测试数集,利用准确率最高的模型得到的结果:
3
数据挖掘实验报告
分析说明:
在用J48对数据集进行分类时采用了10折交叉验证(Folds=10)来选择和评估模型,其中属性值有两个Y,N。一部分结果如下:
Correctly Classified Instances 23 88.4615 % Incorrectly Classified Instances 3 11.5385 % === Confusion Matrix === a b <-- classified as
14 3 | a = N 0 9 | b = Y
这个矩阵是说,原来是“Y”的实例,有14个被正确的预测为“Y”,有3个错误的预测成了“N”。原本是“NO”的实例有0个被正确的预测成为“Y”,有9个正确的预测成了“N”。“14+3+0+9=26”是实例的总数,而(14+9)/ 26=0.884615正好是正确分类的实例所占比例。这个矩阵对角线上的数字越大,说明预测得越好。
(2)K最近邻分类算法
用“Explorer”打开数据“data02.arff”,然后切换到“Classify”。点击“Choose”,选择算法“lazy-IBk”,再在“Test options”选择“Cross-validation(Flods=10)”,点击“Start”,开始运行。
训练结果:
4
数据挖掘实验报告
系统默认lazy-IBk K最近邻分类算法中KNN=1,得到如下结果 === Summary ===
Correctly Classified Instances 20 76.9231 % Incorrectly Classified Instances 6 23.0769 % Kappa statistic 0.4902 Mean absolute error 0.252 Root mean squared error 0.4626 Relative absolute error 54.9136 % Root relative squared error 96.694 % Total Number of Instances 26 === Detailed Accuracy By Class ===
TP Rate FP Rate Precision Recall F-Measure ROC Area Class
0.824 0.333 0.824 0.824 0.824 0.768 N 0.667 0.176 0.667 0.667 0.667 0.768 Y Weighted Avg. 0.769 0.279 0.769 0.769 0.769 0.768 === Confusion Matrix === a b <-- classified as 14 3 | a = N 3 6 | b = Y
使用不同的参数准确率比较: KNN Correctly Classified 1 2 3 4 20 20 19 23 (76.9231 %) (73.0769%) (88.4615 %) (76.9231 %) 5