一条龙网站建设哪家好东莞网络推广优化

张小明 2026/1/19 22:02:40
一条龙网站建设哪家好,东莞网络推广优化,互联网产品品牌推广,上海关键词优化外包文章目录一、数据准备与标准化1. 下采样技术2. SMOTE过采样技术3. 模型训练与评估超参数调优混淆矩阵可视化函数最终模型训练与评估二、技术对比与选择建议一、数据准备与标准化 首先#xff0c;我们需要加载并预处理数据。以下是完整的数据准备代码#xff1a; import num…文章目录一、数据准备与标准化1. 下采样技术2. SMOTE过采样技术3. 模型训练与评估超参数调优混淆矩阵可视化函数最终模型训练与评估二、技术对比与选择建议一、数据准备与标准化首先我们需要加载并预处理数据。以下是完整的数据准备代码importnumpyasnpfromnumpy.maimportnegativefromsklearn.model_selectionimporttrain_test_split,cross_val_scorefromsklearn.preprocessingimportStandardScalerimportpandasaspdimportmatplotlib.pyplotaspltfrompylabimportmplfromsklearn.linear_modelimportLogisticRegressionfromsklearnimportmetricsfromimblearn.over_samplingimportSMOTEimporttime# 读取数据并标准化datapd.read_csv(rcreditcard.csv)scalerStandardScaler()data[Amount]scaler.fit_transform(data[[Amount]])datadata.drop([Time],axis1)# 设置中文字体mpl.rcParams[font.sans-serif][Microsoft YaHei]mpl.rcParams[axes.unicode_minus]False# 可视化正负样本分布labels_countpd.value_counts(data[Class])print(labels_count)plt.title(正负例样本数)plt.xlabel(类别)plt.ylabel(频数)labels_count.plot(kindbar)plt.show()这段代码首先加载信用卡交易数据对交易金额进行标准化处理并移除时间列。通过可视化我们可以清楚地看到正负样本正常交易与欺诈交易的情况。1. 下采样技术下采样是通过减少多数类样本来平衡数据集的方法。在信用卡欺诈检测中正常交易样本多数类远多于欺诈交易样本少数类。下采样随机选择与少数类数量相同的多数类样本从而创建平衡的训练集。# 创建训练数据副本data_traindata.copy()# 分离正负样本positive_egdata_train[data_train[Class]0]negative_egdata_train[data_train[Class]1]# 下采样从多数类中随机抽取与少数类相同数量的样本positive_egpositive_eg.sample(len(negative_eg))# 合并平衡后的数据集data_cpd.concat([positive_eg,negative_eg])# 准备特征和标签column_names[V1,V2,V3,V4,V5,V6,V7,V8,V9,V10,V11,V12,V13,V14,V15,V16,V17,V18,V19,V20,V21,V22,V23,V24,V25,V26,V27,V28,Amount]x_wholedata_c[column_names]y_wholedata_c[[Class]]# 划分训练集和测试集x_train_w,x_test_w,y_train_w,y_test_wtrain_test_split(x_whole,y_whole,train_size0.3,random_state1000)# 使用逻辑回归模型lrLogisticRegression(C0.01)lr.fit(x_train_w,y_train_w)# 预测和评估test_predictedlr.predict(x_test_w)resultlr.score(x_test_w,y_test_w)print(metrics.classification_report(y_test_w,test_predicted))下采样的优点是简单易实现计算效率高但缺点是会丢失大量多数类样本的信息可能降低模型性能。2. SMOTE过采样技术SMOTESynthetic Minority Over-sampling Technique是一种更先进的过采样技术它通过生成合成样本来增加少数类样本数量而不是简单复制现有样本。# 使用完整不平衡数据集x_wholedata[column_names]y_wholedata[[Class]]# 划分训练集和测试集x_train,x_test,y_train,y_testtrain_test_split(x_whole,y_whole,train_size0.2,random_state1000)# 应用SMOTE过采样oversamplerSMOTE(random_state0)os_x_train,os_y_trainoversampler.fit_resample(x_train,y_train)SMOTE的工作原理是在少数类样本之间进行插值生成新的合成样本。具体来说对于每个少数类样本SMOTE会找到该样本的k个最近邻少数类样本随机选择其中一个邻居在原始样本和邻居之间的连线上随机选择一个点作为新样本3. 模型训练与评估超参数调优使用交叉验证来寻找最优的正则化参数Cscores[]c_param_range[0.01,0.1,1,10,100]z1foriinc_param_range:start_timetime.time()lrLogisticRegression(Ci,penaltyl2,solverlbfgs,max_iter1000)scorecross_val_score(lr,os_x_train,os_y_train,cv8,scoringrecall)score_meansum(score)/len(score)scores.append(score_mean)end_timetime.time()print(第{}次....format(z))print(time spend:{:.2f}.format(end_time-start_time))print(recall:{}.format(score_mean))z1best_cc_param_range[np.argmax(scores)]print(f........最优惩罚因子为:{best_c}........)混淆矩阵可视化函数defcm_plot(y,yp):fromsklearn.metricsimportconfusion_matriximportmatplotlib.pyplotasplt cmconfusion_matrix(y,yp)plt.matshow(cm,cmapplt.cm.Blues)plt.colorbar()forxinrange(len(cm)):foryinrange(len(cm)):plt.annotate(cm[x,y],xy(y,x),horizontalalignmentcenter,verticalalignmentcenter)plt.ylabel(True label)plt.xlabel(Predicted label)returnplt最终模型训练与评估# 使用最优参数训练模型lrLogisticRegression(Cbest_c,penaltyl2,max_iter1000)lr.fit(os_x_train,os_y_train)# 训练集预测和评估train_predictedlr.predict(os_x_train)print(metrics.classification_report(os_y_train,train_predicted,digits6))cm_plot(os_y_train,train_predicted).show()# 测试集预测和评估test_predictedlr.predict(x_test)print(metrics.classification_report(y_test,test_predicted,digits6))cm_plot(y_test,test_predicted).show()二、技术对比与选择建议下采样优点计算效率高适用于大规模数据集缺点丢失大量多数类信息可能降低模型泛化能力适用场景计算资源有限多数类样本冗余度高SMOTE过采样优点保留所有样本信息生成多样化的合成样本缺点可能生成不现实的样本计算成本较高适用场景少数类样本非常稀少需要保留所有原始信息在实际应用中建议根据具体问题和数据特性选择合适的采样技术。同时通过合理的数据预处理和采样技术我们可以显著提高模型在不平衡数据集上的性能特别是在召回率这一关键指标上。
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

西双版纳网站建设写出网站版面布局设计步骤

AutoGPT入门指南:本地安装与使用详解 在AI技术飞速演进的今天,我们正从“被动响应式助手”迈向一个全新的阶段——自主智能体时代。当你只需说一句“帮我写一份学习计划”,AI就能自己上网查资料、整理框架、生成文档并保存结果时&#xff0c…

张小明 2026/1/17 21:45:12 网站建设

网站的备案流程表格可以做网站么

全面解析Java 2认证考试:备考指南与实用建议 1. Java 2 版本更新及认证考试变革 Java 2 平台 5.0 版本(开发代号“Tiger”)的发布是一个重大里程碑。这个版本促使开发者编写更简洁的 Java 代码,不过也要求大家做出思维上的调整。例如需要熟悉新的语法结构,像枚举类型 e…

张小明 2026/1/17 21:45:15 网站建设

郑州公共住宅建设投资有限公司网站单页设计图片

2025年中南大学计算机考研复试机试真题 2025年中南大学计算机考研复试上机真题 历年中南大学计算机考研复试上机真题 历年中南大学计算机考研复试机试真题 更多学校题目开源地址:https://gitcode.com/verticallimit1/noobdream N 诺 DreamJudge 题库&#xff1…

张小明 2026/1/17 21:45:16 网站建设

哪个网站做外贸好青岛网站建设 百度

从“插上电”开始的智慧生活:智能插座实战指南你有没有过这样的经历?出门半小时后突然想起——电熨斗好像没关。或者冬天躺在被窝里,发现客厅的灯还亮着,但又懒得爬起来去关。别担心,这不只是你一个人的烦恼。事实上&a…

张小明 2026/1/17 21:45:17 网站建设

做网站标题代码自己做的网站如何盈利

第一章:Open-AutoGLM私有化部署概述Open-AutoGLM 是基于 AutoGLM 架构开源的大语言模型,支持在企业内部环境中进行私有化部署,保障数据隐私与业务安全。该模型适用于智能客服、知识库问答、自动化报告生成等场景,能够在不依赖外部…

张小明 2026/1/17 21:45:17 网站建设

北京口碑最好的装修公司网络排名优化软件

第一章:Open-AutoGLM 低配置电脑优化在运行 Open-AutoGLM 这类基于大语言模型的自动化工具时,低配置电脑常面临内存不足、推理延迟高等问题。通过合理的资源配置与模型优化策略,可在有限硬件条件下实现稳定运行。模型量化压缩 使用量化技术将…

张小明 2026/1/19 18:57:16 网站建设