摘要:【目的】为了在迭代自训练之前探索数据集分布情况,挑选出所含信息量较大且置信度较高的无标记样本加入训练集训练,让训练出的初始分类器有较高的准确性,提高自训练方法的泛化性。【方法】以聚类假设为基础,先对无标记样本集进行密度峰值聚类,在人工地选出聚类中心后,将新的聚类中心作为模糊聚类的初始聚类中心进行模糊聚类,从而筛选出有用的无标记样本。【结果】通过使用密度峰值优化模糊聚类算法,筛选出所含信息量大且置信度高的样本加入了训练集,训练出泛化性更强、分类精度更高的分类器。【结论】实验结果表明,改进后的自训练方法能快速发现样本集原始空间结构,筛选出有用无标记样本加入训练集,与结合其他聚类算法的自训练方法相比分类精度有所提高。