php爬取安居客小区数据

这是一个使用PHP实现的安居客小区数据爬虫。它首先通过PHP获取网页内容,然后利用jQuery处理DOM元素,提取小区名称、图片、地址等信息,并将数据发送到do.php进行存储。do.php连接数据库,将数据插入到Anjuke表中。
摘要由CSDN通过智能技术生成
ajk.php


<?php
/**
 * Created by PhpStorm.
 * User: tobosu02
 * Date: 16-4-23
 * Time: 下午4:07
 */




if(!array_key_exists('tmp',$_COOKIE)){
    setcookie('tmp',2);
}
$url = "http://shenzhen.anjuke.com/community/p{$_COOKIE['tmp']}/";
$content = file_get_contents($url);
echo $content;
?>
<script>
    $(function(){
        var titleArr = new Array();
        var picArr = new Array();
        var addressArr = new Array();
        var llArr = new Array();
        var addresses = $(".li-itemmod .li-info address");
        var titles = $(".li-itemmod .li-info h3 ");
        var pics = $(".li-itemmod a img");
        var lls = $(".li-itemmod .li-info .bot-tag span").next();
        titles.each(function(i){
            titleArr.push(titles[i].innerText);
            picArr.push(pics[i].src);
            addressArr.push(addresses[i].innerText);
            llArr.push(lls[i].href);
        });
        var titleArr2 = titleAr

### 安居客出租房(武汉为例)爬虫+数据分析+可视化 这个爬虫是我前段时间在淘宝上做单子的时候遇见的一个客户需求。本来以为就是一个简单的爬虫项目。但后面客户加了数据清洗和数据分析的要求。而后又加了要详细代码解释的需求等等。直到最后客户坦白说这是他们大专的毕设.......但是这个单子坐下来只有200左右,我想了一下,感觉好亏啊。在淘宝上随便找一个做毕设的都要好多钱的,而且客户本身的代码能力、数学、逻辑能力都很差,导致我每行都给注释以及看不懂,在我交付代码后又纠缠了我一个多礼拜。反正总体做下来的感觉就是烦躁。头一次感觉到了客户需求变更带来的巨大麻烦。 总之这是一次不是很愉快的爬虫经历。但是作为我写爬虫以来注释最详细的一次,以及第一次真正使用像matplotlib这种数据分析库的代码,我认为还是有必要分享出来给大家当个参考的(PS:大佬轻拍~)。爬虫本身几乎没有什么难度,写的也比较乱,敬请见谅。 **功能** 爬取安居客上的出租房信息(武汉地区的),并通过爬取数据进行数据清洗以及数据分析。给出四个不同层面的可视化图。最终结果如下图所示: ![Image text](https://raw.githubusercontent.com/srx-2000/git_spider/master/anjuke_room_rent_info/result/1.png) ![Image text](https://raw.githubusercontent.com/srx-2000/git_spider/master/anjuke_room_rent_info/result/2.png) ![Image text](https://raw.githubusercontent.com/srx-2000/git_spider/master/anjuke_room_rent_info/result/3.png) ![Image text](https://raw.githubusercontent.com/srx-2000/git_spider/master/anjuke_room_rent_info/result/4.png) **环境** 1. Windows 10 2. python3.7 **使用方法** 首先声明该爬虫由于是特定情况下写的,所以本身的通用性特别差,仅可以对安居客网站上的武汉的出租房信息进行爬取,且需要自己手动更新cookie。同时在对数据进行分析及可视化的时候由于也是特别针对武汉出租房的进行的,所以针对性也比较强。如果别的需求需要自己进行更改。 1. 访问[安居客网址](https://wuhan.anjuke.com/),获取cookie。 > tip:获取cookie的方法可根据[此链接](https://jingyan.baidu.com/article/5d368d1ea6c6e33f60c057ef.html) 2. 在项目中找到`spider.py`的文件,将第12行的cookie换成你自己的cookie。 3. 运行`spider.py`,获取房源信息。运行后应会产生一个`武汉出租房源情况.csv`的文件。此文件为我们从安居客爬取的房源信息,其中包含`房屋租住链接、房屋描述、房屋地址、房屋详情(户型)以及经纪人、房屋价格`五个属性。 4. 在获取了数据之后我们运行`matplotlib.py`文件。进行数据清洗,分析,可视化。运行后即可获得**功能**中展示四个图片。 **技术栈** 1. request 2. parsel 3. pandas 4. matplotlib **进步(相比之前)** 此次爬虫相比之前的技术上可以说有减无增。但其中注释相当详细,可谓是每行代码都有注释。所以对于初学者应该有一些用处。同时使用matplotlib进行了数据分析可视化等。对于数据处理的代码的注释也是几乎每行都有注释的。
要在PHP爬取指定网页的JSON数据,可以使用以下步骤: 1. 首先,你需要使用`file_get_contents`函数来获取网页的内容。这个函数可以接受一个URL参数,用于指定要获取的网页。你可以像这样调用该函数:`$response = file_get_contents($url);` 2. 接下来,你需要检查是否成功获取了网页内容。你可以使用条件语句来判断`$response`的值是否为`false`,如果是,则表示获取失败。否则,表示获取成功。你可以像这样检查:`if ($response !== false) { // 获取成功 } else { // 获取失败 }`。 3. 如果获取成功,你可以使用`json_decode`函数来解析JSON数据。你可以将`$response`作为参数传递给`json_decode`函数,然后将解析后的结果保存在一个变量中。例如:`$data = json_decode($response);` 4. 最后,你可以根据需要使用解析后的JSON数据进行后续操作。你可以访问`$data`中的各个属性和值,进行数据提取或其他处理。 需要注意的是,爬取网页数据可能涉及到访问权限和服务器限制。请确保你的爬虫行为符合法律和网站的规定,并尊重网站的隐私政策和使用条款。 总结: 1. 使用`file_get_contents`函数获取网页内容,将结果保存在`$response`变量中。 2. 检查`$response`是否为`false`,以确定是否成功获取网页内容。 3. 使用`json_decode`函数解析JSON数据,将结果保存在一个变量中。 4. 根据需要使用解析后的JSON数据进行后续操作。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [使用PHP从网页获取JSON数据](https://blog.csdn.net/weixin_29011667/article/details/115116072)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值