基于kmeans算法的租房价格分析系统

50 篇文章 7 订阅

随着计算机技术与信息技术的深度结合,很多采用传统的手工数据分析处理方式走向了信息处理自动化。自动化的信息管理方式一方面增强了信息抓取的手段,方便自用户快速提取所需信息,另一方面也提升了用户数据分析的效率。本文通过对当前的出租房屋网站的数据结构进行分析研究,利用K-means聚类分析算法,设计租房价格分析系统,快速实现出租房屋的分类。

本系统在系统层面使用客户端服务器的软件架构,利用软件工程面向对象与面向过程相结合的设计思想,开发语言使用VB6.0,数据库使用免费的MySQL,操作系统使用win10。本系统通过电脑自动抓取出租房屋网站数据的方式,实现一键式数据抓取、数据清清洗和数据整理,快速入库出租房屋价格数据,提升数据分析效率。同时本系统能够实现各类数据统计分析结果供用户查询。

本系统充分利用聚类分析算法的特点,利用面积和价格进行坐标展示,能够把分类结果直观的展示给用户。

研究背景

在科学技术飞速发展的当今时代,人们不再仅仅满足利用电脑进行休闲娱乐的基本需要,更对数据处理自动化提高工作效率有着极大的需求。随着数据分析技术深入发展,通过计算机进行数据分析归类成为掌握分析对象特征的重要手段。本系统通过利用K-means算法结合网上抓取的房屋出租数据实现出租房屋信息的自动化聚类,从而为用户提供相同类别的租房数据信息。

当下虽然当前有各种专用租房数据的推介网站,但是对于面向具体的用户来说,缺少的应有的相关租房数据聚类系统,使得用户搜索同类租房非常困难。不仅如此,对自身周围的租房数据信息不能快速查询浏览,导致进行租房不能得到快速找到合适的同类信息。同时专用租房数据网站主要推荐获利较高的排位,用户找到的租房数据相当于给了权重,不利于真正想获取合适房源的用户,这样导致用户对介绍的房源数据有些不够信任,使得寻找租房信息非常困难。采用基于k-means算法对抓取的租房数据进行聚类分析,可以快速帮助用户找到合适的房源。

目的意义

在房价居高不下的情况下,大多数初入社会的年轻人以及去外地务工人员没有富裕的经济实力去购买住房,租房则是一个比较恰当的方法。综上所述,针对目前租房方式难以满足人们各项需求的现状,将设计并实现一个能解决相关问题的租房价格分析系统,对租房信息进行爬取收集加以处理分析可以很好的解决用户对租房的困难选择问题。因此,研究开发这样一个租房价格分析系统具有一定的实际应用价值[1]。

研究现状

根据相关调查报告数据,租房近十年来上线的各种网站信息系统,比重达到过去二十年总数的八成。这一重要数据揭示了当今国内租房信息化建设蓬勃发展的重要趋势,同时也间接表明了国内房地产信息化配套设施的不断完善提升,房屋出租信息自动化逐渐成长为信息化最重要的管理方式。另外,得益于房地产信息化基础设施的普及,计算机进行数据分析有了重要的基础。作为房地产信息自动化的重要组成部分,国内现在对于租房信息的软件研究有着众多的现场案例,为用户提供了各种个性化的特色服务。

国外房地产配套设施的丰富多样性,国外房地产信息化建设发展非常成熟。因国外的国情和中国有着很大的不同,因此对于国外的房屋租借管理相关网站和程序来说显得非常不符合国内情况。而且国外的用户群体规模不太适合国内高校群体。因此要使用符合自身特色的房屋租借价格分析系统,必须要进行国内实际情况的调查研究进行开发设计。同时国外的软件发展比较注重个人隐私的保护,不能随意收集用户的信息,这使得在国外不能使用的注册条款,在国内显得有些格格不入。

K-means聚类学习是最早被用于模式识别及数据挖掘任务的方法之一,并且被用来研究各种应用中的大数据库,因此用于大数据的聚类算法受到越来越多的关注。该聚类算法容易实现,应用广泛。但是也有一定的缺点,就是均值不好把握,K的取值很难确定,数据集比较难收敛,隐含类别的数据不平衡等,因此该算法有很多变体,从而很多人对其进行各种改进优化。我国地产市场发展十分迅速,而房屋价格总体上一直呈现上涨趋势,在房屋交易中,二手房更加显得普遍,但房屋的架构受到多种因素的影响,虽然有一些租房价格分析的案例,但国内对租房价格分析系统的研究较少。

研究内容

本文主要研究如何在windows系统中,利用VB6.0框架并结合MySQL数据库框架进行租房价格分析系统的开发设计。系统使用VB6.0自带的控件进行房屋出租数据的自动抓取入库,然后利用K-means算法实现租房数据的聚类分析。用户端主要是客户端进行用户信息的注册登记等。因为用户端对用户的感知非常重要,一旦出现响应延迟大,用户就会非常不满,可能就会放弃对程序的使用。因此用户端要操作简洁易用,服务端要响应迅速,快速实现数据的搜索查找。

功能需求分析

本系统的用户有两种角色,分别是系统管理人员和普通用户。

管理人员是系统各项信息管理的实施者,该角色用户主要实现系统用户信息的设置管理、用户信息的查询统计、租房信息的采集入库、租房信息的查询统计、租房价格分析统计等功能。

(1)用户登录功能:

 管理员用户只有登录系统之后,可以在业务管理页面进行各项业务信息的增删改查。

(2)用户信息管理:

本功能模块用来对用户注册信息进行设置管理,该功能主要实现用户详细信息的添加、修改和删除与查询。

(3)租房信息管理:

本功能模块用来实现网上租房数据信息的采集入库,同时实现租房详细信息的查询和统计。

(4)价格分析管理:

本功能模块用来对租房价格信息进行查询统计,该功能主要利用k-means算法实现对租房数据的聚类分析,同时实现租房价格区间的统计和分析结果的查询统计。

普通用户是系统各项信息查询的重要使用者,该角色用户主要实现个人信息的注册登录、用户信息的设置和查询、租房信息的查询统计、租房价格分析结果的查询统计等功能。

(1)用户注册功能

普通用户打开系统后,在登录界面看到注册按钮,输入个人信息后点击注册按钮,验证通过后注册完成。

(2)用户登录功能:

普通用户只有登录系统之后,可以在租房信息查询页面进行租房各项信息查看。

(3)租房查询功能:

普通用户登录系统之后,在租房查询页面可以查看租房信息和统计信息。

(4)价格分析查询功能:

普通用户登录系统之后,在价格分析结果页面可以查看聚类分析结果和价格区间统计信息。

系统功能结构

根据前面的需求分析,设计出如图所示的系统功能结构图。管理员功能:用户登录功能、用户信息管理、租房数据采集入库、租房数据查询统计、租房价格算法分析、租房价格区间统计、价格分析结果查询、价格分析结果统计;

普通用户功能:用户注册功能、用户登录功能、租房数据查询统计、租房价格区间统计、价格分析结果查询、价格分析结果统计、个人信息设置。

管理员登录系统用,点击“kmeans分析”菜单,进入算法分析界面如图所示。

在该界面上首先设置聚类个数,然后点击“聚类分析”按钮,即可开始租房价格算法分析计算。

该算法运算过程:抓取房屋数据,然后加房屋数据清洗,去除无用的数据,将有用的房屋数据放入数据库,用kmeans算法分析房屋数据,对比后导出最优解,算法结束

该算法的步骤为:算法步骤:为每个聚类选择一个初始聚类中心;将样本集按照最小距离原则分配到最邻近聚类;使用每个聚类的样本均值更新聚类中心;重复步骤上两步步骤,直到聚类中心不再发生变化;输出最终的聚类中心和k个簇划分。

  • 19
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值