python
文章平均质量分 67
woloqun
这个作者很懒,什么都没留下…
展开
-
使用spark tf-idf 提取文章的关键字
HashingTF无法获得词索引关系,所以tf需要替换成CountVectorizer,具体看代码from pyspark.ml.feature import HashingTF, IDF, Tokenizerfrom pyspark.ml.feature import CountVectorizersentenceData = spark.createDataFrame([ (1, "Hi I heard about Spark Spark".split(" ")), (2,.原创 2020-09-21 11:14:04 · 1139 阅读 · 0 评论 -
爬取新浪股票财务数据
# coding=utf-8import HTMLParserimport urllib2import systype = sys.getfilesystemencoding()# 截止日期# 每股净资产# 每股收益# 每股现金含量# 每股资本公积金# 固定资产合计# 流动资产合计# 资产总计# 长期负债合计# 主营业务收入# 财务费用# 净利润class S...原创 2018-06-19 15:05:06 · 4979 阅读 · 0 评论 -
python调用jar
下载jpypegit clone https://github.com/originell/jpype.git/home/work/soft/python/bin/python setup.py install被调用的jar/home/work/soft/common-utils-1.0-SNAPSHOT.jar测试:import os.path from jp...原创 2018-06-10 11:10:21 · 965 阅读 · 1 评论 -
推荐系统案例
摘要本文将介绍如下几种推荐算法以及调优过程1.基线算法baseline2.item协同过滤3.结合基线算法baseline的item协同过滤算法4.item协同过滤(topK+ baseline)电影数据集地址:http://files.grouplens.org/datasets/movielens/ml-100k.zip基线算法baselinebase...原创 2017-07-25 22:31:14 · 2165 阅读 · 1 评论