Kaggle竞赛-Two Sigma Connect: Rental Listing Inquiries

想成为风筝

已于 2022-06-16 21:57:40 修改

阅读量422

点赞数 1

分类专栏：数据分析 kaggle竞赛文章标签：机器学习 python sklearn

于 2022-06-16 20:34:32 首次发布

本文链接：https://blog.csdn.net/weixin_50918736/article/details/125322629

版权

数据分析同时被 2 个专栏收录

7 篇文章 1 订阅

订阅专栏

kaggle竞赛

2 篇文章 0 订阅

订阅专栏

Kaggle竞赛，网址链接：Two Sigma Connect: Rental Listing Inquiries

在这里插入图片描述
根据租房网站上的数据信息，预测房子的受欢迎程度。（这是一个分类问题，包含以下数据，有类别变量、整数变量、文本变量）。

随机森林模型

使用sklearn完成建模预测。数据集可在竞赛官网下载。

import numpy as np
import pandas as pd
import zipfile  #官网数据集是zip类型，使用zipfile打开
import os
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import log_loss
for dirname, _, filenames in os.walk(r'E:\Kaggle\Kaggle_dataset01\two_sigma'):   #改下自己的路径
    for filename in filenames:
        print(os.path.join(dirname, filename))

train_df = pd.read_json(zipfile.ZipFile(r'E:\Kaggle\Kaggle_dataset01\two_sigma\train.json.zip').open('train.json'))
test_df = pd.read_json(zipfile.ZipFile(r'E:\Kaggle\Kaggle_dataset01\two_sigma\test.json.zip').open('test.json'))

#这里自定义了一个数据处理函数。
def data_preprocessing(data):
    data['created_year'] = pd.to_datetime(data['created']).dt.year
    data['created_month'] = pd.to_datetime(data['created']).dt.month
    data['created_day'] = pd.to_datetime(data['created']).dt.day
    data['num_description_words'] = data['description'].apply(lambda x:len(x.split(' ')))
    data['num_features'] = data['features'].apply(len)
    data['num_photos'] = data['photos'].apply(len)
    New_data = data[['created_year','created_month','created_day','num_description_words','num_features','num_photos','bathrooms','bedrooms','latitude','longitude','price']]
    return New_data
train_x = data_preprocessing(train_df)
train_y = train_df['interest_level']
test_x = data_preprocessing(test_df)
X_train,X_val,y_train,y_val = train_test_split(train_x,train_y,test_size=0.33)  #数据切分

clf = RandomForestClassifier(n_estimators=1000)   #随机森林模型
clf.fit(X_train,y_train)
y_val_pred = clf.predict_proba(X_val)
log_loss(y_val,y_val_pred)

y_test_predict = clf.predict_proba(test_x)
labels2idx = {label:i for i,label in enumerate(clf.classes_)}
sub = pd.DataFrame()
sub['listing_id'] = df['listing_id']
for label in labels2idx.keys():
    sub[label] = y[:,labels2idx[label]]
#保存提交文件
#sub.to_csv('submission.csv',index=False)   #竞赛提交文件！