这段时间使用爬虫跟踪链家固定区域的房价走势,开发了一个小web系统,记录一下中间遇到的各种坑
主要有以下几个组成部分
1.前台:bootstrap
2.后台:python flask
3.数据库:mongodb
1.Flask 使用render_template 进行数据交互,并且js进行读取
背景:Flask需要使用一个list 、字典传大量的数据到js中进行处理,如果js直接使用模板进行渲染{{xxxx}},会出现大量不识别字符
1,处理方法:使用json进行格式化处理
list1 = []
list1.append(posts1)
list1.append(posts2)
postsJson2 = json.dumps(list1)
2,处理方法:使用不可见div在html进行数据处理
{% for avarage_list_disc in post_avarage_list %}
<div style="display:none" id="{{ avarage_list_disc.name }}" datalist="{{ avarage_list_disc.average_list }}"></div>
{% endfor %}
js中获取
JSON.parse(document.getElementById('xxxxxxname').getAttribute('datalist'))
2.Flask 与js数据的时间戳不匹配(python为秒,js为毫秒)
背景:使用python 传输过去之后,在python 2.7 版本存在”L”,JS无法识别
处理方法:不要在python中乘1000 要在JS中乘1000,下面是个二维数组的处理方法
function calatime(arr) {
for (var i = 0; i < arr.length; i++) {
arr[i][0] = (arr[i][0]) * 1000;
}
return arr
}
3.Bootstrap 画折线图
背景:使用bootstrap画折线图,遇到很多坑
处理方法:
1.可以使用charts或者使用highcharts,这里使用的是highcharts
https://www.hcharts.cn/demo/highcharts/line-time-series/dark-unica
2.针对时间戳的处理,参考上面一条
3.显示提示框的处理细节:
tooltip: {
xDateFormat: '%Y-%m-%d'
},
4.居中显示问题
<div class="row row-top col-lg-6">
<div id="daycontainer" style="max-width:800px;height:400px" class="center-block"></div>
</div>
4.Mongodb数据库
4.1时间存储
背景:数据库中难免会存时间,但是存储的格式如何定义
存储建议:一律采用时间戳进行存储,便于后面的数据分析
同时数据库查询的时候,进行时间大小匹配查询
today_query = {"time": {"$gt": min_time,"$lte": max_time}}
col = data_sheet.find(today_query)
4.2Mongdb认证
use xxx
db.createUser(
... {
... user: "name",
... pwd: "pwd",
... roles: [{ role: "readWrite", db: "xxxx_db" }]
... }
... )
4.3Mongdb后台启动
mongod --fork -f xxx.conf
4.4web前台后台运行
python run.py >/dev/null 2>&1 &
4.5 数据库的设计尤为重要,根据数据类型关系,选择关系型?
5.scrapy 爬虫
5.1 判定爬虫之后的动作
在spider的init中可以添加信号捕捉操作
dispatcher.connect(self.spider_closed, signals.spider_closed)
def spider_closed(self):
print("finished")
5.2 爬虫过程中,存储不同的数据
多个Item时使用
if isinstance(item, CountItem):
print 1
elif isinstance(item, PriceItem):
print 2
elif isinstance(item, HumanItem):
print 3