这般女子-CSDN博客

原创算法工程师（机器学习和人工智能方向）面试题目分享

算法工程师面试题目分享1.GBDT和Xgboosting的区别，bagging和boosting的区别（1）参考答案详见：https://blog.csdn.net/jackmcgradylee/article/details/77778001（2）参考答案详见：https://blog.csdn.net/qq_23418043/article/details/826861172.词嵌入层...

2019-05-26 17:38:23 2558

原创英文句子中的字母统计

输入一句话，将这句话中的小写字母转成大写输出，并统计每个字母出现的次数，输出最大次数的字母及次数

2022-12-26 15:16:21 683 1

原创 python爬取网页数据出现中文乱码解决办法

python爬取网页数据出现中文乱码解决办法

2022-07-20 11:20:30 1191

原创使用pandas以及matplotlib画出带有表格的折线图

最近在研究如何画出带有表格数据的统计图，特此做个总结。1. 明确目的我们最终需要画出下图：通过图片可以看到，该图中的折线图特点如下：带有表格数据，且在下方；图中有中文显示；不含纵坐标，且横轴起点在0；纵坐标不含刻度线，且范围设定为（-3.0，6.0）带小数点一位展示；四周不含边界线；折线图有颜色和点的形状设定；图例在表格的index上（这点暂时未能实现，如果有会的小伙伴，烦请告知，不胜感谢！）2.导入模块import pandas as pd# 画图模块import mat

2022-03-29 14:50:08 4211 2

原创 Python实现熵值法

函数功能熵值法计算各项目综合得分函数调用The_Entropy_method.get_weights(data, name_list=None)输入参数data：二维数组，指标数据name_list：指标正负向，1-代表正向，0-代表负向，默认是None，全为正向。输出ws：所有指标权重，一维数组score：所有项目综合得分，一维数组index：所有项目的名次，一维数组代码实现import pandas as pdfrom sklearn.preprocessing import

2021-12-22 15:29:09 3019

原创启动MongoDB报错：[main] Automatically disabling TLS 1.0, to force-enable TLS 1.0 specify --sslDisabledPro

这个问题头疼了好久，搜到的都是针对自己的情况个改的，我用了都不好使，在此记录一下，希望能帮助大家。报错如图注意到有一行错误：exception in initAndListen: NonExistentPath: Data directory F:\data\db\ not found., terminating解决办法确定好data文件的位置，并在data文件夹下创建db文件夹和log文件夹，使用如下命令（位置需要替换你自己的）：mongod --dbpath C:\Users\data\

2021-12-01 17:07:26 3687

原创如何在虚拟环境中安装python包

加入镜像以及虚拟环境的位置pip install keras-bert==0.83.0 -i https://pypi.doubanio.com/simple/ --trusted-host pypi.doubanio.com --target=C:\Users\anaconda3\envs\tf-gpu\Lib\site-packages

2021-11-17 09:22:01 1843

原创 Windows10下安装TensorFlow-gpu==1.14.0记录

安装TensorFlow-gpu版本踩了好多坑，还好终于解决了。1 版本对应及选择我的台式机上的显卡型号如下：（查看方式NIVIDA控制面板->帮助->系统信息->组件）在TensorFlow官网中查看对应版本：我安装的是TensorFlow-gpu1.14.0版本，最终成功的版本信息如下：tensorflow-gpu==1.14.0cuda == 10.0cudnn == 7.6.52 安装过程参考The Best Way to Install TensorFlo

2021-11-16 16:40:51 4728

原创下载安装Python中的tensorflow的所有依赖，用于离线安装Tensorflow

在联网的环境下新建文件夹，在该文件夹下打开命令窗口，执行如下语句：pip download tensorflow==1.14.0即可将所有安装依赖下载到文件夹中。

2021-09-09 16:15:37 710

原创解决Pandas读取文件丢失数据前的0问题

只需加上dtype=object即可，亲测可行pd.read_csv(paths, header=None, delimiter=',', dtype=object)

2021-09-01 16:02:42 1033

原创 Python报错：ValueError: The following settings are not supported: {‘http_port‘: 7474}

在将数据导入neo4j数据库中报错，原因是py2neo版本过高，请降低版本试试。

2021-06-10 10:42:13 3395 1

原创使用正则表达式切分英文句子，将标点和句子分开

[x.strip() for x in re.split(r'(\w+)?', sent) if x and x !=' ']可将如下句子：Mary moved to the bedroom.切分结果：[‘Mary’, ‘moved’, ‘to’, ‘the’, ‘bedroom’, ‘.’]

2021-05-20 09:34:20 1059

原创数据结构之回溯法求解八皇后问题

本文主要是给出通过Python回溯法计算八皇后问题，除了在打印结果部分有点麻烦外，计算过程相对简单。"""八皇后问题是指如何在一个8X8的棋盘中放置八个皇后，并令他们相互攻击不到对方。也即每一行、每一列和每条斜线上都只有一个皇后。"""class Solution(): def solvequeen(self, n): self.helper([-1]*n, 0, n) def helper(self, columnpositions, rowindex

2021-01-06 17:09:25 222

原创 Python：爬取免费代理IP创建自己的代理IP池

在进行爬虫时，有时候爬取的次数多了或者短时间太过频繁就会出现无法访问的情况，此时是网站封了我们的IP ，为了避免这种情况，我们可以设置代理IP池，通过爬取免费代理IP网站获取代理IP ，然后不断测试更新代理IP池。由于免费的代理IP的不稳定性，因此只能是给大家提供个参考，在真正应用到工程时还是需要有稳定的代理IP。下载运行ProxyPoolstep1: 下载ProxyPool代码，按照说明配置好Python环境：安装redis数据库，并启动服务，然后安装Python依赖包pip install

2020-12-25 10:58:35 580

原创 paddleocr学习——（1）安装避坑

最近在研究ocr中文识别，调用百度的api接口识别，效果可以但是有次数限制，因此找到了百度开源工具，PaddleOCR，已经有封装好的paddleocr包，在此记录安装过程的坑。个人经验，只要出现某个模块缺少某个属性，那一定就是版本不匹配。环境配置在快速安装中环境配置有详细的说明，在进行paddleocr安装包之前，首先需要配置好环境。避坑：首先需要保证Python版本是3.7，这一点很容易忽视！paddlepaddle最好安装cpu版本且版本是1.8+ ，推荐使用 PaddlePaddle 2.

2020-12-24 16:36:35 1698

原创 Python：使用代理IP 进行网络爬虫

在进行爬虫时，有时爬取的次数多了，会遇到无法访问的情况，很可能是IP被该网站封了，为了避免这个，我们需要可以使用代理IP ，目前有很多网站提供免费的代理IP ，如西拉免费代理IP，快代理等，但是这些IP的缺陷就是很不稳定，可能下一次测试就不能使用了，因此在实际工程中可以购买稳定的代理IP。本文主要介绍如何使用代理IP进行网站爬取。每种方式添加参数不太一样，亲测可用。1 使用requestsimport requestsurl ='http://httpbin.org/get'i = '186.22

2020-12-22 17:17:04 3969 1

原创 win10 爬虫：解决爬取的html与源文件显示不一致问题

在进行爬虫时，有时我们爬取的html和源文件所显示的不一样，此时我们需要使用selenium库来进行爬取。本文将详细介绍如何解决这个问题。准备工作1. 安装ChromeDriverstep1：首先需要保证谷歌浏览器已经安装好并可以上网。在帮助->关于谷歌中查看版本。step2：然后需要点击下载ChromeDriver，找到对应谷歌版本进行下载。step3：然后将下载好的文件中的 chromedriver.exe 文件直接放到Adaconda3/Scripts中（注意：该路径需要在环境变量

2020-12-22 15:20:14 4132 1

原创解决paddleocr安装过程中出现error: Microsoft Visual C++ 14.0 is required

本人使用Python3.6，需要安装Microsoft Visual C++ Build Tools。下载地址安装完成使用pip命令安装paddleocr:pip install paddleocr

2020-12-22 09:42:50 910

原创 python爬虫股票交易信息（2）

采用Scrapy框架爬取股票信息思路step1 ：建立工程和Spider模板step2 ：编写Spiderstep3 ：编写ITEM，Pipelines建立工程打开命令行，输入scrapy startproject Stocks然后会在当前位置建立一个名称为Stocks的文件夹，包含的目录如下：编写Spider编写stocks.py文件设置start_url为上海深圳股票代码一览表生成个股网址：def parse(self, response): for h

2020-12-20 18:03:40 540 3

原创 Python将汉字转换成编码%E5%8A%A9%E5%86%9C

在进行爬虫时，有时候网址参数是汉字的，需要先转换编码才能进行爬取。参考博客from urllib.parse import quotekeyword = '助农'keywords = quote(keyword)print(keywords)# %E5%8A%A9%E5%86%9C反转：import urlliburllib.parse.unquote('%E5%8A%A9%E5%86%9C')...

2020-12-15 14:48:07 24912 3

原创 python爬虫股票交易信息（三种方法）（1）

本文主要记录关于慕课网上的课程练习，由于时间已久，百度股票网已经不能再用了，因此参考[1]使用的股票网址股城网。法1 采用requests库思路：从初始网页获取个股代码，然后获取个股的交易信息，为了方便起见，我将获取的个股信息直接存储在csv文件中。代码如下：import requestsfrom bs4 import BeautifulSoupimport reimport pandas as pdheaders = { 'User-Agent': 'Mozill

2020-12-11 17:59:13 2618

原创爬取网页文本数据--Python

对网页中的文本数据进行爬取最近在研究爬虫相关的内容，作为记录方便使用是查阅。本文爬取的网址是长沙市统计局望城区2019年国民经济和社会发展统计公报step1: 导入需要用到的库包import requests #爬取网页的库from bs4 import BeautifulSoup #用于解析网页的库step2：设置headers，网址，爬取网页headers = { 'user-agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64)

2020-12-09 12:07:01 6101 4

原创基于医疗知识图谱的项目构建学习总结（一）—项目构建环境搭建及爬取数据部分

由于工作需要，这里学习了中科院软件所刘焕勇老师在github上的开源项目，基于知识图谱的医药领域问答项目QABasedOnMedicaKnowledgeGraph。原项目地址：https://github.com/liuhuanyong/QASystemOnMedicalKG自己动手实现了环境的搭建，目前实践到爬虫部分，在此记录，欢迎大家提出意见。首先是安装mongodb参考博客mongodb安装及创建用户按照文中的说明下载和配置mongodb，并启动服务，打开网址，出现如下语句说明启动成功：I

2020-09-04 13:50:03 3721 13

原创 proto3定义数据类型，含二维数组及解析

proto协议定义数据类型使用proto3语法1. 定义简单列表message Response{ repeated string a = 1; repeated int32 b =2;}2. 定义字典类型（简单）message Result{ map<string, int32> values = 1;}3. 定义二维列表（数组）输入message Response{ message Edge{ repeated int32

2020-06-24 10:41:29 23657 2

原创自然语言处理之Word2vec——学习词嵌入

1.学习单词表示的经典方法：Wordnet，独热编码和词频率-逆文档频率。Wordnet是使用外部词汇知识库来学习单词表示。2.Word2vec——基于神经网络学习单词表示通过查看单词上下文并以数字的方式表示它，来学习给定单词的含义。所谓上下文指的是在感兴趣的单词的前面和后面的固定数量的单词。2.1 skip-gram算法由Mikolov和其他人在2013年提出，该算法是一种利用文本单词...

2019-09-27 14:05:47 845

原创使用pandas读取dat文件完整解决方案

使用pandas读取dat文件完整解决方案import csvdata = pd.read_csv(‘文件名.dat’,header=None,encoding=‘utf-8’,delimiter="\t",quoting=csv.QUOTE_NONE)这里使用的是相对路径

2019-08-13 10:01:11 23577 6

原创 Tesorflow：module 'pandas.core.computation' has no attribute 'expressions'

在使用LSTM模型进行时间序列预测的时候出现错误Tesorflow：module ‘pandas.core.computation’ has no attribute ‘expressions’，解决办法如下：升级dask库：pip install --upgrade dask...

2019-08-01 13:54:02 197

原创 NLP：最全去掉文本中的中英文标点符号大法

在处理文本时，中英文标点不同带来很大麻烦，我是先处理中文，在处理英文标点，最后还要去掉前边留下的空格。注意：两个库分别是中英文的标点符号是分开的，要分开处理，不能同时处理。去掉英文符号from string import punctuationdef preprocess_English(content):train_data = []for word in content:word ...

2019-07-25 10:23:48 5300

原创 python把字典值为二维数组，存入txt文件中以逗号隔开显示

把字典含二维数组写入txt文件中，且显示为逗号隔开path = ‘doc1.txt’f = open(path,‘w’,encoding=‘utf-8’)for key,value in commodity.items():f.write(key+’\n’)f.write(str(value)+’\n’)f.close()如果字典的值是array形式的话就需要加上value = va...

2019-07-25 10:08:09 2487

原创 TypeError: 'module' object is not callable

TypeError: ‘module’ object is not callable 原因分析可能原因是版本匹配问题，模块的版本不一致会导致无法运行

2019-07-03 11:20:32 239

转载 Python报错：ImportError: cannot import name 'downsample'

Python报错：ImportError: cannot import name ‘downsample’，解决方案原文地址：https://www.jb51.net/article/149495.htm由于版本更新问题，修改步骤如下：1.找到from theano.tensor.single import downsample所在文件，如：…\lib\site-packages\lasa...

2019-05-16 13:42:36 4256 1

翻译 Python深度学习--01深度学习入门

这里写自定义目录标题1 深度学习入门什么是深度学习深度学习流程深度学习可以解决的什么问题参考文献1 深度学习入门什么是深度学习深度学习是机器学习与神经网络、人工智能、图形化建模、优化、模型识别和信号处理等技术融合后产生的一个领域。简单来说，深度神经网络是一种用多层抽象来表示概念或者特征的方式。深度学习使用多层机器学习模型对数据进行有监督学习或者无监督学习。深度学习流程在学习深度学习核心思...

2019-05-14 22:35:55 360

xiaoxiaojie521的博客