首页 > 汽车导购 > 正文

如何用Python在10分钟内建立一个预测模型

2023-12-21 17:04:55 | 玩车网

今天玩车网小编为大家带来了如何用Python在10分钟内建立一个预测模型,希望能帮助到大家,一起来看看吧!

本文目录一览:

如何用Python在10分钟内建立一个预测模型

如何用Python在10分钟内建立一个预测模型

预测模型的分解过程

我总是集中于投入有质量的时间在建模的初始阶段,比如,假设生成、头脑风暴、讨论或理解可能的结果范围。所有这些活动都有助于我解决问题,并最终让我设计出更强大的商业解决方案。为什么你要在前面花费这段时间,这有充分的理由:

你有足够的时间投入并且你是无经验的(这是有影响的)

你不带有其它数据观点或想法的偏见(我总是建议,在深入研究数据之前做假设生成)

在后面的阶段,你会急于完成该项目而没有能力投入有质量的时间了。

这个阶段需要投入高质量时间,因此我没有提及时间表,不过我建议你把它作为标准的做法。这有助于你建立建立更好地预测模型,在后面的阶段的只需较少的迭代工作。让我们来看看建立第一个模型的剩余阶段的时间表:

数据描述性分析——50%的时间

数据预处理(缺失值和异常值修复)——40%的时间

数据建模——4%的时间

性能预测——6%的时间

让我们一步一步完成每个过程(每一步投入预测的时间):

阶段1:描述性分析/数据探索

在我刚开始成为数据科学家的时候,数据探索占据了我大量的时间。不过,随着时间的推移,我已经把大量的数据操作自动化了。由于数据准备占据建立第一个模型工作量的50%,自动化的好处是显而易见的。

这是我们的第一个基准模型,我们去掉任何特征设计。因此,描述分析所需的时间仅限于了解缺失值和直接可见的大的特征。在我的方法体系中,你将需要2分钟来完成这一步(假设,100000个观测数据集)。

我的第一个模型执行的操作:

确定ID,输入特征和目标特征

确定分类和数值特征

识别缺失值所在列

阶段2:数据预处理(缺失值处理)

有许多方法可以解决这个问题。对于我们的第一个模型,我们将专注于智能和快速技术来建立第一个有效模型。

为缺失值创建假标志:有用,有时缺失值本身就携带了大量的信息。

用均值、中位数或其它简单方法填补缺失值:均值和中位数填补都表现良好,大多数人喜欢用均值填补但是在有偏分布的情况下我建议使用中位数。其它智能的方法与均值和中位数填补类似,使用其它相关特征填补或建立模型。比如,在Titanic生存挑战中,你可以使用乘客名字的称呼,比如:“Mr.”, “Miss.”,”Mrs.”,”Master”,来填补年龄的缺失值,这对模型性能有很好的影响。

填补缺失的分类变量:创建一个新的等级来填补分类变量,让所有的缺失值编码为一个单一值比如,“New_Cat”,或者,你可以看看频率组合,使用高频率的分类变量来填补缺失值。

由于数据处理方法如此简单,你可以只需要3到4分钟来处理数据。

阶段3:数据建模

根据不同的业务问题,我推荐使用GBM或RandomForest技术的任意一种。这两个技术可以极其有效地创建基准解决方案。我已经看到数据科学家通常把这两个方法作为他们的第一个模型同时也作为最后一个模型。这最多用去4到5分钟。

阶段4:性能预测

有各种各样的方法可以验证你的模型性能,我建议你将训练数据集划分为训练集和验证集(理想的比例是70:30)并且在70%的训练数据集上建模。现在,使用30%的验证数据集进行交叉验证并使用评价指标进行性能评估。最后需要1到2分钟执行和记录结果。

本文的目的不是赢得比赛,而是建立我们自己的基准。让我们用python代码来执行上面的步骤,建立你的第一个有较高影响的模型。

让我们开始付诸行动

首先我假设你已经做了所有的假设生成并且你擅长使用python的基本数据科学操作。我用一个数据科学挑战的例子来说明。让我们看一下结构:

步骤1:导入所需的库,读取测试和训练数据集。

#导入pandas、numpy包,导入LabelEncoder、random、RandomForestClassifier、GradientBoostingClassifier函数

import pandas as pd

import numpy as np

fromsklearn.preprocessing import LabelEncoder

import random

fromsklearn.ensemble import RandomForestClassifier

from sklearn.ensembleimport GradientBoostingClassifier

#读取训练、测试数据集

train=pd.read_csv('C:/Users/AnalyticsVidhya/Desktop/challenge/Train.csv')

test=pd.read_csv('C:/Users/AnalyticsVidhya/Desktop/challenge/Test.csv')

#创建训练、测试数据集标志

train='Train'

test='Test'

fullData =pd.concat(,axis=0) #联合训练、测试数据集

步骤2:该框架的第二步并不需要用到python,继续下一步。

步骤3:查看数据集的列名或概要

fullData.columns # 显示所有的列名称

fullData.head(10) #显示数据框的前10条记录

fullData.describe() #你可以使用describe()函数查看数值域的概要

步骤4:确定a)ID变量 b)目标变量 c)分类变量 d)数值变量 e)其他变量。

ID_col =

target_col =

cat_cols =

num_cols= list(set(list(fullData.columns))-set(cat_cols)-set(ID_col)-set(target_col)-set(data_col))

other_col= #为训练、测试数据集设置标识符

步骤5:识别缺失值变量并创建标志

fullData.isnull().any()#返回True或False,True意味着有缺失值而False相反

num_cat_cols = num_cols+cat_cols # 组合数值变量和分类变量

#为有缺失值的变量创建一个新的变量

# 对缺失值标志为1,否则为0

for var in num_cat_cols:

if fullData.isnull().any()=True:

fullData=fullData.isnull()*1

步骤6:填补缺失值

#用均值填补数值缺失值

fullData = fullData.fillna(fullData.mean(),inplace=True)

#用-9999填补分类变量缺失值

fullData = fullData.fillna(value = -9999)

步骤7:创建分类变量的标签编码器,将数据集分割成训练和测试集,进一步,将训练数据集分割成训练集和测试集。

#创建分类特征的标签编码器

for var in cat_cols:

number = LabelEncoder()

fullData = number.fit_transform(fullData.astype('str'))

#目标变量也是分类变量,所以也用标签编码器转换

fullData = number.fit_transform(fullData.astype('str'))

train=fullData='Train']

test=fullData='Test']

train = np.random.uniform(0, 1, len(train)) <= .75

Train, Validate = train=True], train=False]

步骤8:将填补和虚假(缺失值标志)变量传递到模型中,我使用随机森林来预测类。

features=list(set(list(fullData.columns))-set(ID_col)-set(target_col)-set(other_col))

x_train = Train.values

y_train = Train.values

x_validate = Validate.values

y_validate = Validate.values

x_test=test.values

random.seed(100)

rf = RandomForestClassifier(n_estimators=1000)

rf.fit(x_train, y_train)

步骤9:检查性能做出预测

status = rf.predict_proba(x_validate)

fpr, tpr, _ = roc_curve(y_validate, status)

roc_auc = auc(fpr, tpr)

print roc_auc

final_status = rf.predict_proba(x_test)

test=final_status

test.to_csv('C:/Users/Analytics Vidhya/Desktop/model_output.csv',columns=)

现在可以提交了!

如何用Python在10分钟内建立一个预测模型

求python支持向量机多元回归预测代码

这是一段用 Python 来实现 SVM 多元回归预测的代码示例:

# 导入相关库

from sklearn import datasets

from sklearn.svm import SVR

from sklearn.model_selection import train_test_split

from sklearn.metrics import mean_squared_error

# 加载数据集

X, y = datasets.load_boston(return_X_y=True)

# 将数据集拆分为训练集和测试集

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# 创建SVM多元回归模型

reg = SVR(C=1.0, epsilon=0.2)

# 训练模型

reg.fit(X_train, y_train)

# 预测结果

y_pred = reg.predict(X_test)

# 计算均方误差

mse = mean_squared_error(y_test, y_pred)玩车网

print("Mean Squared Error:", mse)

在这段代码中,首先导入了相关的库,包括 SVR 函数、train_test_split 函数和 mean_squared_error 函数。然后,使用 load_boston 函数加载数据集,并将数据集分为训练集和测试集。接着,使用 SVR 函数创建了一个 SVM 多元回归模型,并使用 fit 函数对模型进行训练。最后,使用 predict 函数进行预测,并使用 mean_squared_error 函数计算均方误差。

需要注意的是,这仅仅是一个示例代码,在实际应用中,可能需要根据项目的需求进行更改,例如使用不同的超参数

如何用Python在10分钟内建立一个预测模型

python计算商品数量和单价的总价怎么编程?

用C语言编写一程序,完成以下功能:定义一个结构体数组,输入4种商品的名称、单价、数量,要求计算并逐个输出每种商品的总价,最后输出单价最高的商品价格。注意事项:

1.注意进行异常处理。

2.注意代码书写、命名规范。提示算法(仅供参考):1.定义一个结构体,包括名称、单价、数量、总价四个成员2.通过循环输入名称、单价、数量3.计算商品总价,存入结构体4.循环输出每种商品总价5.判断并输出单价最高的商品价格

以上就是玩车网整理的如何用Python在10分钟内建立一个预测模型相关内容,想要了解更多信息,敬请查阅玩车网。
与“如何用Python在10分钟内建立一个预测模型”相关推荐
性价比是王道,看新一代蒙迪欧如何在后浪涌现中屹立不倒
性价比是王道,看新一代蒙迪欧如何在后浪涌现中屹立不倒

低价高质,错位竞争,新一代蒙迪欧1.5T成同级独角兽近二十年来,合资B级轿车的价格完成了几个轮次的下探。从三十四万到二十多万、从二十多万到二十万、再从二十万到十七八万……可以说,在各大合资品牌的推动下,合资B级车早已进入寻常百姓家,成为了“家轿”的一员。而在近日,合资B级市场再次开启了一轮“厮杀大战”。只不过,这一次的参战者并非普通B级车,而是B+级轿车。在五月份,

2023-12-17 15:01:17
橡胶件成型后,表面残留脱模剂如何清理?
橡胶件成型后,表面残留脱模剂如何清理?

轮胎脱模剂配方轮胎脱模剂配方有3种。分别为:1、滑石粉、云母、膨润土、氮化硼、硅藻土、石墨、二硫化钼石英粉为轮胎脱模剂粉末配方,耐高温、耐磨抗拉伸。2、脂肪酸皂,钾皂、钠皂、钙皂、镁皂、锌皂等、聚醚、聚酯为轮胎脱模剂表面活性配方,特点是易清洗剂。3、矿物油、合成油、石蜡、微晶蜡、聚乙烯蜡、氧化聚乙烯蜡、改性聚丙烯蜡、棕榈蜡、动物蜡、溶剂、油脂为轮胎脱模剂矿物油脂配方,特点是涂装性

2023-12-14 05:12:23
如何实现汽车3D模型网页/手机端/APP/H5展示?
如何实现汽车3D模型网页/手机端/APP/H5展示?

仿真汽车模型网的介绍仿真汽车模型网是一家专门销售汽车各种不同比例高仿真模型的网站,主要经营电动遥控、合金静态、惯性回力这三大类高仿真汽车模型,公司拥有一批长期从事于模型行业的专业人才,并与国内外各大汽车媒体、汽车生产厂商、经销商合作,共同为中国及海内外的模型爱好者提供更全面的服务,公司本着立足仿真汽车模型市场,以推动模型文化和开发模型市场为宗旨,不断与你共同打造一个更广阔的仿真汽车模型世界

2023-12-11 12:02:37
宝马将再增资百亿扩建在华项目,如何从商业角度解读此举?
宝马将再增资百亿扩建在华项目,如何从商业角度解读此举?

宝马第六代动力电池项目动工2026年在华投产新世代车型易车讯5月18日,华晨宝马汽车有限公司迎来20周年华诞。与此同时,宝马集团也宣布将加快在中国沈阳的投资扩产,集中发力电动化车型的本土研发、生产和动力电池迭代,进一步贯彻“电动化、数字化、循环永续”的集团战略。具体细节方面,宝马集团宣布将于2026年起在沈阳投产具有划时代意义的纯电动宝马新世代车型,而与之配套的宝马第

2023-12-14 01:36:42
人生第一辆车,预算10万左右,选国产车好,还是合资车好? 10万以内预算买国产车还是合资车
人生第一辆车,预算10万左右,选国产车好,还是合资车好? 10万以内预算买国产车还是合资车

人生第一辆车,预算10万左右,选国产车好,还是合资车好?10万预算买人生的第一辆车,国产车与合资车的抉择的确困扰了很多人,国产车有人说“技术不行,配置来凑”,合资车价格口碑虽好,价格也高了不少,那么到底选择国产还是合资呢?首先要确定自己买SUV还是买轿车,如果选择SUV,小编觉得10万左右国产车真的不错。“技术不行,配置来凑”的说法已经不太适合现在的国产车了,国产车本土生产,零部件各

2023-12-14 09:18:57
【详解】广州本田车型10万左右15万该如何选择
【详解】广州本田车型10万左右15万该如何选择

【详解】广州本田车型10万左右15万该如何选择作为一家世界级汽车制造商,广州本田已经在国内市场发展了20多年的时间,而这个时间已经足够让广本深入人心。广本的汽车产品在消费者心目中拥有良好口碑。如果你正好就在寻找广州本田车型,那么不要错过本篇文章,因为它会带你深入了解广本的车型,选择一款最适合你的。首先,我们来看广州本田在这个价位段内有哪些车型。按照市场分布可以看分成两类:轿车和SUV。

2023-12-21 16:43:15
没有10万级车型 理想也不可能每年卖出160万辆 理想MEGA预订指南公布 Max车型预计售价60万元内
没有10万级车型 理想也不可能每年卖出160万辆 理想MEGA预订指南公布 Max车型预计售价60万元内

没有10万级车型理想也不可能每年卖出160万辆李想是个敢想敢干的品牌创始人。就像当初没有人看好增程式车型,而理想品牌就偏偏把重注压在了增程式上,而且是孤注一掷只押在增程式上,这份果决与勇气,不管圈内的人如何评价,但确实让吃瓜群众很佩服。最近,李想又提出一个看似匪夷所思的目标,要在2025年实现160万辆/年的目标,而且,还不是偷偷摸摸的说,高调上微博,留下证据的说。16

2023-12-21 14:47:51
福建戴姆勒奔驰凌特Sprinter性能如何及其简介
福建戴姆勒奔驰凌特Sprinter性能如何及其简介

福建戴姆勒奔驰凌特Sprinter性能如何及其简介作为奔驰在亚洲唯一的商用车生产基地,福建戴姆勒已经推出了VITO威霆和VIANO唯雅诺。由于定位高端商用车市场,福建戴姆勒的这两款奔驰车型没有竞争对手。凭借国产优势,快速提升了销量,相对于原装进口车型,将年均1000辆的销量提升至1万辆以上。再接再厉,福福建戴姆勒将推出第三款奔驰商务车凌特。凌特车型的车身尺寸和定位都高于现在的唯亭和唯雅

2023-12-16 15:10:03