Python
装B且挨揍の
有python机器学习、爬虫、数据挖掘、算法等项目可以联系我,wxid_fz1xs8dl5xwy22
展开
-
2024年微信公众号链接爬取
这样就可以通过正则表达式找到所有的link,再将\替换掉,即可得到所有文章的链接,具体爬取文章哪些内容,html格式各不相同。这是具体公众号文章信息,它需要的就是fakeid,其中token是你自己公众号独有的。通过输入(或文件导入)公众号名称,即可爬取该公众号所有历史文章。打开后发现有搜索结果的fakeid,这是每个公众号的标识。通过公众号官方网站调用API,打开开发者工具后发现有。其中header和cookie按照自己浏览器填写即可。原创 2024-02-07 18:21:10 · 268 阅读 · 0 评论 -
2024年天某查公司信息爬取
把文件路径改一下就可以运行了。原创 2024-02-01 10:43:33 · 254 阅读 · 0 评论 -
python门户网站文件爬取并显示
爬取网页附件,根据文件类型分类处理,显示文件内容并制成表格。原创 2023-12-08 20:36:36 · 492 阅读 · 0 评论 -
基于飞浆resnet50的102分类
loss收敛到0.001 ,准确率到达93%左右。原创 2023-11-10 14:13:48 · 497 阅读 · 0 评论 -
基于飞浆NLP的BERT-finetuning新闻文本分类
最后损失函数收敛在0.2或0.1左右比较正常,四舍五入差不多90准确率,当然如果你解冻更多参数,自然可以更加精确,看运行环境的配置了,建议不要使用免费平台配置,否则比乌龟还慢。ps:注意最后的f.write('\n'),否则除第一次,每次打印少一行,很坑。ps:如果只保留classifier用来训练,效果欠佳。原创 2023-11-07 14:33:27 · 484 阅读 · 0 评论 -
百度飞浆ResNet50大模型微调实现十二种猫图像分类
要求很简单,给train和test集,训练模型实现图像分类。这里使用的是残差连接模型,这个平台有预训练好的模型,可以直接拿来主义。训练十几个迭代,每个批次60左右,准确率达到90%以上。原创 2023-10-09 20:44:13 · 987 阅读 · 0 评论 -
蓄水池算法
假设有一组数据流元素有 N 个(事先不知道 N 具体值),我们希望选择 n 个样本(N >= n),使用怎样的策略进行抽样可以使得数据流中每个元素被选择的概率恰为 n / N结论:创建大小为n的容器,先把,然后第i个(从n+1开始)有,随机和n个已保留的元素之一交换,有1-n/i的概率舍弃。原创 2023-10-02 10:20:09 · 160 阅读 · 0 评论 -
jieba库分词并生成词云
将停用词文件和数据导入,对数据进行分词后,使用wordcloud去除停用词,加载中文字体,设置清晰度,得到词云。注意如果有一些无意义词汇占比太大,可手动在stopword文件中添加停用词。原创 2023-09-19 10:07:10 · 164 阅读 · 0 评论 -
爬取任意百度贴吧评论(可直接Copy)
爬取的评论在D:/res/info.txt中,注意控制访问频率,不要把time.sleep()删了,要不然ip会被被临时封了,也可能被验证码疯狂骚扰,如果你有ip代理池那随意了。代码拿去就可以用,输入你要爬的贴吧名就行了。看贴吧有多少页,range范围改为多少。原创 2023-09-19 09:56:27 · 449 阅读 · 2 评论 -
Python爬取斗罗大陆樱花动漫全集
③正则查找要用非贪婪模式,还有记得加上time.sleep()和timeout,以及user-agent要随机取(参考源码),要不然会有connection aborted,被反爬。由第一个包含第二个index.m3u8的地址,ctrl+f在源代码中一查index,果然有,不过/前总有个\,这个用replace替换为空。④查看每一集的url的不同点,最后利用线程池一次性爬好几集(这里爬了1-10集),只要你内存够(F12打开Fetch/XHR,看到m3u8,ts,一眼顶真,打开index.m3u8。原创 2023-08-22 11:53:41 · 4285 阅读 · 0 评论