![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python
Xeleven
这个作者很懒,什么都没留下…
展开
-
11.推荐系统
推荐系统80/20原则80%的销售额来源于20%的热门商品(喜爱热门商品的用户数更多,如果不知道用户的喜好,推荐热门商品更加保险)长尾效应用户分析新用户:倾向于浏览热门商品老用户:逐渐开始浏览冷门商品新颖度覆盖度新算法上线流程离线实验日志生成标准数据集数据集分为训练集和测试集训练集上训练模型,测试集上进行预测根据指标,评价预测结果用户调查:高预测准确率不等于用户满意度算法上线测试之前需要真实用户来参与测试要保证参与测试的用户与实际用户分布相同在线测原创 2020-10-23 11:14:25 · 254 阅读 · 0 评论 -
10.Hadooop;Hive
Hadoop单点结构面临的问题集群架构面临的问题Hadoop集群架构冗余化数据存储分布式文件系统单节点结构问题:运算不了海量数据集群架构问题:1.长时间距群的运算如何应对节点的故障 2.传输消耗大 3.分布式编程非常复杂,需要一个简单的模型能够隐去所有的复杂性(节点各干各的事叫分布式,干同一件事叫集群)Hadoop分布式集群hadoop是依据MapReduce的原理,用java语言实现的分布式处理机制hadoop是一个能够对大量数据进行分布式处理的软件框架,实现了Google的M.原创 2020-10-23 11:13:30 · 158 阅读 · 0 评论 -
8.特征工程
特征工程机器学习简单理解机器学习:选择一种学习算法,从数据中学习并建立成模型,并对新的数据进行预测的计算机科学其适用于:1.不存在已知算法解决方案的复杂问题2.需要大量手动调整或规则列表超长的问题3.可以适应环境波动的系统机器学习就是要用数据和算法训练有效的模型,再用模型取预测新的数据机器学习中的基础概念提供给算法的包含所需解决方案的训练数据,称为标签属性加上其值就是特征通过给定的特征来预测一个目标数值,叫做回归任务用于训练模型的数据叫训练集用于测试模型精度的数据叫测试集每原创 2020-10-23 11:12:45 · 140 阅读 · 0 评论 -
7.数据科学原理与数据处理
数据科学原理与数据处理Jupyter notebook安装:pip install jupyter运行:在命令行处cd到源代码文件目录,然后jupyter notebook魔法命令:%run %run ./runable.py%load%load ./runable.pyprint('run')def runable(x): print(x)runable('abc')from runable import runablerunable('aa')# not原创 2020-10-23 11:12:09 · 190 阅读 · 0 评论 -
6.1.scrapy框架原理
scrapy框架原理scrapy异步框架核心原理同步异步同步:下一个方法依赖于上一个方法的结果异步:下一个方法不依赖于上一个方法的结果同步爬虫程序的问题:href_s = [url1, url2, url3…]for href in href_s: response = urlopen(href).read() # 处理responseurl1访问成功后才能进行url2访问…时间浪费在了向服务器发送请求和等待服务器回应上scrapyScrapy主要包括了以下组件:引原创 2020-10-23 11:10:55 · 149 阅读 · 0 评论 -
5.1.python第五章:数据提取与清洗策略
数据提取和清洗策略正则表达式正则表达式常用命令常用命令含义.除了\n\r的所有字符\d数字\D非数字\w=[a-zA-Z0-9_]数字、字母、下划线\W非数字字母和下划线\s空格(包括制表符换页符)[a-z]小写英文字母[a-zA-Z0-9]大小写英文字母和数字[123]数字123[^123]不是数字123*出现次数>=0+出现次数>=1{n}出现次数=n{n,m}原创 2020-10-23 11:09:27 · 443 阅读 · 0 评论 -
4.1.python第四章:Django高级
Django高级应用CookieCookie的原理Cookie是由服务器产生,存储在浏览器中的键值对数据每个域名的Cookie都相对独立浏览器访问域名为A的erl地址,会把A域名下的Cookie一起传到服务器Cookie可以设置过期时间Cookie的设置和获取cookie的设置: response = HttpResponse() response.set_cookie([key],[value],max_age=60*60) return response注原创 2020-10-23 11:08:12 · 214 阅读 · 0 评论 -
3.2.python第三章:数据库
1. 数据库1.1. pycharm 登录 MySQL在pycharm最右侧竖条导航栏点击Database,点击+号,选择Data Source 为MySQL。在新打开的页面中,如果第一次使用Pycharm连接数据库,左下角会显示更新驱动,点击下载。输入用户名和密码进行连接1.2. 数据库索引在数据库表中,对字段建立索引可以大大提高查询速度。通过善用这些索引,可以令MySQL的查询和运行更加高效。索引是快速搜索的关键。MySQL索引的建立对于MySQL的高效运行是很重要的。索引分单列索引和组原创 2020-10-23 11:07:24 · 304 阅读 · 0 评论 -
3.1.python第三章:路由与模板
1. 路由与模板1.1. Web原理将网址称为url地址,将 .net .cum .org 前的地址称为HOST,根据 HOST 找到对应服务器,对服务器发送对应的url地址,服务器收到地址后解析地址并处理返回内容。浏览器向服务器发送数据称为请求:request,服务器向浏览器发送数据称为响应:response1.2. 正则表达式常用命令含义.除了\n\r的所有字符\d数字\D非数字\w数字、字母、下划线\W非数字字母和下划线\s空原创 2020-10-23 11:06:32 · 106 阅读 · 0 评论 -
2.2.python第二章:字符编码
字符串编解码转化文件(utf-8编码)----(读取:转换为unicode)—>记事本(文字等内容在内存中为unicode编码)-----(保存,转换为utf-8)----->文件(utf-8)服务器(生成内容由Unicode转换utf-8传输)------>输出utf-8网页内容------->浏览器 print(ord('A'))# 65 print(ord('我'))# 25105 print(chr(65))# A print(chr(2.原创 2020-10-20 20:36:04 · 193 阅读 · 0 评论 -
2.1.python第二章:面向对象编程
[1. 私有属性](#1-私有属性)[2. 类属性和实例属性](#2-类属性和实例属性)[3. 继承](#3-继承) [4. 多态](#4-多态)[5. 类型检查](#5-类型检查)[6. 常用设计模式](#6-常用设计模式)[7. 异常处理](#7-异常处理)[8. 调用栈](#8-调用栈) [9. 模块](#9-模块)1. 私有属性用两个下划线表示私有属性,如:self.__name = namepython没有真正的私有,把私有该名称_Student__name依旧可以访问:print(xi.原创 2020-10-20 20:30:04 · 101 阅读 · 0 评论 -
1.python第一章:基础零碎点
1.字符串的拼接方式(1) + : ‘北京’+‘你好’(可用于简单字符串拼接,效率低)(2) list拼接: list_str = ['ni', 'hao', 'bb'] str2 = ' '.join(list_str) #单引号里用于分割,如‘11’则打印出来为 ni11hao11bb print(str2)(3) format 拼接: str1 = ' i love {0},{1} love {2}'.format('u', 'i', 'u') .原创 2020-10-20 20:29:29 · 115 阅读 · 0 评论