57AliYun--阿里云最新优惠活动
阿里云优惠码丨阿里云代金券

云服务器数据如何划分

数据划分:随机分层抽样,划分训练集(70%)用于构建模型,测试集(30%)用于验证模型效果;数据预处理:数据整合、数据清洗、文本分词等过程在训练集和测试集上是同样的处理方式。

以确保最后的干净的训练集和测试数据的格式是统一的;文本向量化:采用tf-idf将文本向量化,选择l2正则化,结合文档频率df和最大词频tf进行特征选择,选出若干个关键词。

设置停用词[‘is’, ‘not’, ‘this’, ‘the’, ‘do’, ‘in’]等;4)模型构建:选取分类问题常用的算法构建模型,构建模型过程中不断参数调优,构建最佳的模型。

对于数量特别少的故障类型,如果依靠专家知识分析已有的工单日志能够一一正确区分的话,那么可以人为地抽象出独一无二的故障特征,并编写模块实现自动化分类。

赞(0) 打赏
未经允许不得转载:吾趣阿里云网 » 云服务器数据如何划分

评论 抢沙发

评论前必须登录!

 

强烈推荐

高性能SSD云服务器ECS抗攻击,高可用云数据库RDS