zhangqiang1104-CSDN博客

原创使用Tkinter做在线音乐播放器

1.先使用Tkinter库写界面2.写点击按钮触发的事件（1）.使用网易音乐的api，返回json格式数据，解析数据2.涉及到多线程，一个软件默认打开一个线程

2016-02-29 22:06:07 4364 2

原创自动创建txt文件并写入内容

打开data文件夹，以时间为文件名，写入内容：#coding=utf-8import timewith open('data\\'+time.asctime().replace(':',' ')+'.txt','w') as f: #注意类型要转换为str格式 f.write(u'张强'.encode('utf-8'))

2016-02-27 15:58:21 3702

原创 Python开发qq批量登陆

操作步骤：1.打开qq软件2.移动鼠标到qq输入处3.在输入处，点击鼠标，输入帐号4.模拟按下tab键，输入密码，模拟点回车登录#coding=utf-8__author__='zq'import osimport win32guiimport win32apiimport win32conimport SendKeysimport timef

2016-02-27 13:17:08 5033 3

原创 python微信公众账号二次开发

微信公众号开发网址：https://mp.weixin.qq.com/注意：申请公众账号后，系统需要一天的审核时间后，才能进行二次开发

2016-02-26 22:22:45 3568

原创查询本机IP及精确地理位置

使用API查询IP对应的具体位置，注意点：1.淘宝ip地址库http://ip.taobao.com/instructions.php，按照说明操作即可第一行#linux系统中，指定python启动位置2.利用os.name识别操作系统，针对不同的操作系统，设置不同的编码3.养成好的编程习惯，在python中所有中文，写成格式：u"地理位置：".encode(bianma)+s

2016-02-26 22:02:35 5512

原创使用selenuim自动操作浏览器

首先，在pycharm中安装selenium库，在firefox浏览器安装firebug工具，然后写程序，包括两部分： 1.打开浏览器，设置并保存。#coding=utf-8from selenium import webdriverfrom selenium.webdriver.common.action_chains import ActionChainsfrom tim

2016-02-26 20:56:11 1736

原创论文笔记：Resilient Distributed Dataset: A Fault-Tolerant Abstraction for In-memory C

中文版链接：http://shiyanjun.cn/archives/744.html摘要本文提出了分布式内存抽象的概念——弹性分布式数据集（RDD，Resilient Distributed Datasets），它具备像MapReduce等数据流模型的容错特性，并且允许开发人员在大型集群上执行基于内存的计算。现有的数据流系统对两种应用的处理并不高效：一是迭代式算法，这在图应用和机

2015-12-21 20:31:12 1355

原创论文笔记：《the Google File System》

《the Google File System》Google GFS文件系统，一个面向大规模数据密集型应用的、可伸缩的分布式文件系统，包括几百甚至几千台普通的廉价设备组装的存储机器，同时被相当数量的客户机访问。GFS存储的文件被分割成若干固定大小的chunk，以唯一的chunk标识区分，保存在chunkserver上，为保证数据可靠性，每个chunk块被复制到三个chunkserver。

2015-12-21 20:29:54 581

《Google MapReduce》用户首先创建一个Map函数处理一个基于keyalue pair的数据集合，输出中间的基于keyalue pair的数据集合；然后再创建一个Reduce函数用来合并所有的具有相同中间key值的中间value值。MapReduce架构的程序能够在大量的普通配置的计算机上实现并行化处理。这个系统在运行时只关心：如何分割输入数据，在大量计算机组成的集群上的调度，集群中计

2015-12-21 20:27:36 636

原创 web开发基础1

1.Tomcat 服务器是一个免费的开放源代码的Web 应用服务器，属于轻量级应用服务器，在中小型系统和并发访问用户不是很多的场合下被普遍使用，是开发和调试JSP 程序的首选。J2EE规范是这样定义J2EE组件的：客户端应用程序和applet是运行在客户端的组件；Java Servlet和Java Server Pages (JSP) 是运行在服务器端的Web组件；Enterprise

2015-12-21 20:15:41 469

原创 python注意事项1

正斜杠/，经常用到的反斜杠\，单反斜杠“\”是python中的转义符总结在python中我们使用斜杠“/”作为目录分割符即可，而且为了兼容winsow平台的默认格式我们用replace('\\','/')来对目录字符串进行替换后再使用。Python split()通过指定分隔符对字符串进行切片，如果参数num 有指定值，则仅分隔 num 个子字符串：注意转义字符：\' 单引

2015-12-16 16:46:08 444

原创南燕新闻自动生成软件——scrapy爬虫程序

使用scrapy爬虫框架爬取北京大汇丰商学院的新闻，新闻网址：1.定义Item.py容器类文件，代码如下：import scrapyclass PhbsNewsItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() title = scrap

2015-12-12 21:15:20 874

原创南燕新闻自动生成软件——爬虫程序

南燕新闻自动生成软件——爬虫程序自己编写爬虫程序实现对北京大学国际法学院新闻的自动爬取和数据库存储：国法新闻主页：http://stl.pku.edu.cn/zh-hans/news/%E6%96%B0%E9%97%BB%E4%B8%AD%E5%BF%83/stl%E5%8A%A8%E6%80%81/# encoding: UTF-8import urllib2from bs4

2015-12-12 21:11:44 1434

原创南燕新闻自动生成软件——opensns使用

1.安装opensns前，现需要安装配置环境，包括服务器，php和mysql，单独安装和配置很麻烦，这里使用集成包；2.安装swmpserver，即集成Apache Web服务器、PHP解释器以及MySQL数据库的整合软件包，免去了开发人员将时间花费在繁琐的配置环境过程。安装过程中，一直出现“无法正常打开应用程序”的提示，尝试很多中方法，还是没有用，最后放弃。3.用另

2015-12-12 16:43:57 1069

原创 python操作mysql数据库

1.安装MySQLdb，请访问 http://sourceforge.net/projects/mysql-python 2.python操作数据库的例子import MySQLdb# 打开数据库连接db =MySQLdb.connect("localhost","root","root","数据库名")# 使用cursor()方法获取操作游标 cursor = db.

2015-12-12 16:32:35 271

原创 python常用函数

1.python的range()函数用法：>>> range(1,5) #代表从1到5(不包含5)[1, 2, 3, 4]>>> range(1,5,2) #代表从1到5，间隔2(不包含5)[1, 3]>>> range(5) #代表从0到5(不包含5)[0, 1, 2, 3, 4]2.python相关数学函数，使用math模块>>>import m

2015-12-12 16:27:35 284

原创 scrapy爬虫框架的使用

windows下安装scrapy：需要预装很多软件，参考下面博客：http://blog.csdn.net/playstudy/article/details/17296473http://www.cnblogs.com/zhxhdean/p/3580224.html当安装完所有需要的软件后，对于python2.7及以上版本，以自动安装pip工具，可在cmd下使用命令pip ins

2015-12-12 16:26:44 535

原创主题模型LDA

传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少，如TF-IDF等，这种方法没有考虑到文字背后的语义关联，可能在两个文档共同出现的单词很少甚至没有，但两个文档是相似的。举个例子，有两个句子分别如下： “乔布斯离我们而去了。” “苹果价格会不会降？” 可以看到上面这两个句子没有共同出现的单词，但这两个句子是相似的，如果按传统的方法判断这两个句子肯

2015-12-12 16:21:20 401

原创 TF-IDF算法

参考：http://www.cnblogs.com/biyeymyhjob/archive/2012/07/17/2595249.htmlTF-IDF是一种统计方法，用以评估一字词对于一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF应用：自动提取关键词http://www.ruanyifen

2015-12-12 16:20:55 694

原创汉语言处理包Hanlp的使用

本来想通过python调用Java实现Hanlp的使用，参考文章：http://t.cn/RUrIF7z##########python可以用easy_install安装一些软件############1.JPype使用介绍参考：http://michael-paul.iteye.com/blog/1055786Python 作为一种灵活的软件开发语言在当今被广泛使用。在软件开发过

2015-12-12 16:18:45 7909 2

原创中文知识图谱构建方法研究3

3 知识的应用3.1 语义检索传统的检索是基于关键词，搜索引擎并不理解用户的输入，仅对用户的输入进行切分得到关键词，得到关键词后再与目标数据进行匹配，把匹配的结果通过一定的排序算法返回给用户，用户在这些结果中选取想要的目标结果。基于知识图谱的语义检索的目标在于理解用户的输入，为用户给出更加直接和准确的答案。语义检索分为三个过程：（1）通过分词和实体识别从输入中识别概念、实体和属性；

2015-12-07 23:31:36 2873

原创中文知识图谱构建方法研究2

2 知识图谱的构建过程设计的关键技术2.1概念和实体学习2.1.1可用数据源分析知识图谱构建的相关数据源，包括结构化数据、半结构的数据以及非结构化数据。结构化数据为存储在关系数据库或是面向对象数据库中的数据，由于这些都深网数据，使用通用的爬虫通常难以获得，因此，如果要使用，通常需要有专门的获取方式。值得注意的是，存储于关系数据库中的数据基本都是面向行业的；因此，主要用于构建行业知识

2015-12-07 23:18:07 9596

原创中文知识图谱构建方法研究1

摘要近两年来，随着Linking Open Data等项目的全面展开，语义Web数据源的数量激增，大量RDF数据被发布。互联网正从仅包含网页和网页之间超链接的文档万维网转变成包含大量描述各种实体和实体之间丰富关系的数据万维网。在这个背景下，Google、百度和搜狗等搜索引擎公司纷纷以此为基础构建知识图谱，分别为Knowledge Graph、知心和知立方，来改进搜索质量，从而拉开

2015-12-07 23:13:26 12496

转载 SOCKET原理

部分内容摘自网络：http://www.2cto.com/net/201211/166537.html3.1套接字（socket）概念套接字（socket）是通信的基石，是支持TCP/IP协议的网络通信的基本操作单元。它是网络通信过程中端点的抽象表示，包含进行网络通信必须的五种信息：连接使用的协议，本地主机的IP地址，本地进程的协议端口，远地主机的IP地址，

2015-12-03 22:01:46 391

转载 TCP/IP协议三次握手与四次挥手

原文链接：http://blog.csdn.net/renzhenhuai/article/details/12105457一、TCP报文格式 TCP/IP协议的详细信息参看《TCP/IP协议详解》三卷本。下面是TCP报文格式图：图1 TCP报文格式上图中有几个字段需要重点介绍下：（1）序号：Seq序号，占32位，用来标

2015-12-03 21:33:23 477

转载 TCP与UDP区别

1.无连接VS面向连接 UDP是无连接的，TCP面向连接的，这个连接指的就是在运用TCP协议之前，必须先建立TCP连接，在数据传送完毕之后必须释放连接，通俗地将通信的双方知道彼此的存在这个连接是一个虚电路。影响：①因为要建立连接所以TCP有建立连接的“三次握手”，所以UDP在发送数据之前时延更加小。②因为面向连接是端到端的通信，所以多播和广播就只能运用U

2015-12-03 21:03:26 264

转载 TCP的拥塞控制和流量控制的比较

TCP的拥塞控制：http://blog.csdn.net/sicofield/article/details/9708383拥塞控制就是防止过多的数据注入网络中，这样可以使网络中的路由器或链路不致过载。拥塞控制是一个全局性的过程，和流量控制不同，流量控制指点对点通信量的控制。（1）慢开始与拥塞避免慢开始算法的思路就是，不要一开始就发送大量的数据，先探测一下网络的拥塞程度，也就是

2015-12-03 20:34:25 1323

zhangqiang1104的博客