YuCong Wang-CSDN博客

原创【爬虫】对于某市政府招标网站使用多线程策略爬虫的技术报告

项目背景政府的采购意向一向是许多中大型公司的主营业务之一，因此，实时动态的掌握政府的采购信息能够更有效的帮助企业盈利，这次我们的目标是商洛市政府网下面的招标与中标公告两个板块，主要通过中标公告所提供的信息，我们将会从中抽取相关的实体：招标方、中标方、中标时间、中标金额、成交时间等并将其保存在mysql数据库中。网页分析首先我们需要分析一下“中标公告”的网页结构，以便我们的爬虫实现自动实体抽取而不是通过复杂的正则技术流程图技术实现技术参数技术优势...

2021-12-02 14:38:18 1894

原创深度学习前沿技术摘要

目前的深度学习主要分为以下几个领域：图像领域（CV）representative task图像分类目标检测，目标跟踪，动作检测实例分割超分辨率（去马赛克）去雾去雪3D重建风格迁移OCR（光学字符识别）自然语言处理（NLP）文本分类文本标签实体抽取句法依存语义消歧情感分析机器翻译自然语言理解（NLU）观点分析意图提取/识别智能对话生成任务多模态（multimodal）其他：语音识别（AVR）针对这些领域以及其子任务，在深度学习蓬勃发展的前30几年（1987-

2021-12-02 09:44:26 2713 2

原创【git-2021-11-16】pull，push每次都要输入密码解决方案

将密码添加到缓存15分钟 git config --global credential.helper cache将密码保存在本地(不推荐)git config --global credential.helper store恢复rm -f ./.git-credentials

2021-11-16 10:01:55 172

原创【爬虫】在云服务器上部署定时爬虫

准备环境：1.云服务器：centos72.docker安装 (可以参考我的其他文章)本来是准备用scrapy框架写的，但是发现目前还玩不转，只是部署就已经费劲死了，所以这次就准备做一个简陋版的23333正式开始（简陋版呜呜呜）1.先在本地写好爬虫的主文件。...

2021-11-05 00:43:25 1319

原创人工神经网络应用研究报告

本次的报告将会从以下三个方面入手：人工神经网络的理论推导人工神经网络的历史人工神经网络（Artificial Neural Network，即ANN ），是20世纪80 年代以来人工智能领域兴起的研究热点。它从信息处理角度对人脑神经元网络进行抽象，建立某种简单模型.按不同的连接方式组成不同的网络。在工程与学术界也常直接简称为神经网络或类神经网络。神经网络是一种运算模型，由大量的节点（或称神经元）之间相互联接构成。每个节点代表一种特定的输出函数，称为激励函数（activation function）。

2021-11-05 00:42:33 593

原创 R语言并行

R语言编程课堂任务：考察R语言的函数、循环、if条件句编程编写一个函数，函数的要求：➢ 对向量里的每一个元素进行y = 0.5x + 1的映射;➢ 如果0<y<=10则y1=1，10<y<=20或者y>40则y1=2,否则y1=3;➢ 最后函数返回y1;最后用函数计算向量为c(1:100)的映射值串行：...

2021-11-05 00:42:11 800

原创安装spacy以及中英文模型

1.确保环境已经安装tf2x，cpuGpu无所谓python 3.8.8tf 2.4.1(cpu)安装spacy3.0.0pip install spacy==3.0.0离线下载zh_core_web_sm离线下载en_core_web_sm离线安装pip instal xxx

2021-11-05 00:41:51 835

原创基于《Attention is all you need》论文复现的Transformer中英翻译模型的训练与推理

Transformer综述Transformer 原理与代码的构建首先看一下transformer的结构图：接下来我们将其j’k’k

2021-11-05 00:41:21 400

原创自然语言处理的一些小知识点

除了jieba以外，还有没有其他的中文分词工具:Spacy V3.0一般的nlp流水线是怎样的文本 ——（预处理）——分词——词向量化——词性标注——语法解析——命名实体识别——文档3.预处理方式有哪些：去除停用词，数字等无用信息词性归一化词干提取词根提取词向量的表述Gensim1、tf(t) = 词语在文档中出现的频率IDE(t) = log(文档总数量 / 词语词语出现的文档的数量)TF-IDE(词频-反向文档频率) = TF * IDE（词语的常见程度，越大代.

2021-11-05 00:40:57 207

原创 XtuningTheBert

Background: optimizer the bert model updating in 2021/10/18想想较低层次的问题，例如语料库中没有足够的标签，那么我们如何增加模型的准确性，诅咒，使用bert和其他微调结构，这意味着通过使用一些技巧。首先，改进基于文本分类任务或多文本分类任务的bert模型的方法主要有三种：Fine-tuning StrategiesFurther pretrainingMulti-Task Fine-tuning(from 《How to Fine-Tu

2021-11-05 00:35:55 452

原创 Bert-textcnn技术文档

文章目录BERT的详细介绍Bert历史----词向量技术与预训练范式的崛起早期Word Embedding从Word Embedding到ELMOBert的原理TextCNN的详细介绍TextCNN原理BERT+TextCNN联合使用介绍如何实现例子我们当前模型训练的方法（具体到，分了几个模型，每个模型数据及标签是怎么的，每个模型数据集是怎么拆分的，每个模型的训练参数怎么设置，每个模型训练情况是怎么样的）我们当前模型是如何测试（具体到，测试数据与训练数据存在什么差异，测试结果是怎么样的）BERT的详细介绍

2021-11-05 00:35:07 4680 1

原创 slowfast模型浅析

slowfast模型浅析业务场景SlowFast模型业务场景背景非常固定动作持续时间短.快SlowFast模型使用双流卷积输入，一个慢通道，一个快通道，分别提取空域信息以及时域信息。关键点：Slow Pathway：γ\gammaγ是采样步长，即将原始视频按照该步长取样，一般取16, 即16帧取一张关键帧，TTT是采样次数，即一共采样多少次。所以慢通道的一次输入总帧数为T×γT \times \gammaT×γFast Pathway：α是帧采样倍数，β是通道倍数\alpha是帧

2021-11-05 00:34:09 11719 1

原创腾讯音乐nlp算法实习生一面0806

首先招呼我的面试官他也说了他不是专门做nlp的，他是做音频的，第一阶段自我介绍没啥好说的，然后根据我的项目，因为我首先介绍的是一个cv的任务，有用到resnet做bonenet，所以问了下resnet的特点，以及为什么要引入残差链接。然后是看到我的简历上有写transformer做nmt，问了下对于对于transformer有什么改进，我说首先是将数据集替换，任务变成了中英文的翻译，使用了subword中的bpe模型做字词分割，我就说因为原文做的翻译任务使用的都是印欧语系，所以用同一张此表，但是中英

2021-08-06 12:15:24 338

转载 Tensorflow2.3(GPU版)+Win10_x64+GTX1060深度学习环境搭建

看这儿

2021-07-10 18:59:06 344

原创教务处学生画像-毕业去向预测

教务处学生画像评价指标基本学习能力奖学金获奖次数、质量生活能力出勤比学术能力参与竞赛数量、质量发表论文、专利数量实践能力课外作品、证书、社团担任职位评价模型思维导图：评价指标基本学习能力奖学金获奖次数、质量信息接口：教务处统一收集生活能力出勤比信息接口：教务处统一收集学术能力参与竞赛数量、质量信息接口：素质拓展发表论文、专利数量信息接口：素质拓展实践能力课外作品、证书、社团担任职位信息接口：素质拓展评价模型选择有监督模型，例如决策树、随机森林、神经网络等思维导图：

2021-06-12 22:08:59 629 1

原创使用kaggle - API创建自己的数据集！需要科学上网

确保你本地已经安装kaggle and 科学上网pip install kaggle找到要上传的文件目录：xxx在这里我要上传一些照片（12000张左右）首先，刷新token，具体操作就是点击头像进入kaggle的account，左边这个，新建token。它会让你下载一个json，把它放在C:\Users\joseph.kaggle\下面。生成描述文件kaggle datasets init -p xxx你会在xxx下看到这个：打开编辑json文件(一定要改动，模板如下 .

2021-04-17 00:54:16 1860 2

原创大数据工具箱期末考核

虚拟机1. ./sbin/start-dfs.sh ./sbin/stop-dfs.sh2. 正常3. cd usr/local/hbase/ bin/start-hbase.sh4. bin/hbase shell exit10. cd /usr/local/hive ; ./bin/hive云服务器5. cd /usr/local/redis 先启动服务：./src/redis-server 进入客户端 ./src/redis-server6. cd /usr/local/mon.

2021-01-14 00:45:32 197

原创【hadoop】伪分布式HBase的安装

1.配置环境变量(解压到/usr/local下)mv /usr/local/hbase-1.1.5 /usr/local/hbasevim ~/.bashrcexport PATH=$PATH:/usr/local/hadoop/sbin:/usr/local/hadoop/bin:/usr/local/hbase/binsource ~/.bashrc2.配置hbase-env.shvim /usr/local/hbase/conf/hbase-env.shexport JAVA_HOM

2020-12-24 12:07:30 317

原创【docker】端口映射

1.查看容器允许开放的端口：docker ps -a查看容器ip地址：进入容器：docker exec -it python36(我创建的容器的名称，不懂容器的创建的可以看一下我的以前的文章) baship a是否可以ping通：2. 重新启动容器（记得删除同名容器docker run -itd --privileged=true --name python36_centos7 -v /root/dockers/python36/cron:/cron -p 6800:6800 cento

2020-12-21 11:33:28 260

原创【爬虫】部署scrapy爬虫框架

1.进入端口映射6800:6800的容器（参考我的【docker】端口映射）2.安装Scrapyd：pip install Scrapyd3. 启动scrapyd：scrapyd—失败—1.使用主机安装scrapyd2.启动服务（记得删除那个容器，否则端口被占用。...

2020-12-21 11:32:54 321

原创大数据工具箱期中测试

大数据系四大课程模板的运行与修改个人信息；ok大数据系 FTP 文件服务器的连接与下载文件；ok虚拟机、云服务器连接 Xshell 和 WinSCP，会下载和上传文件；ok会查看自己 Linux 系统的 ip 地址等信息；ok查看网卡信息：ip addr查看公网ip：wget -O - -q https://icanhazip.com/会操作文件夹、文件，如新建、改名、复制（含跨路径复制）、删除等常用操作；ok会编辑 txt 文件，保存和查看；ok会启动和关闭 H..

2020-12-10 13:29:23 97

原创【hadoop】创建集群式-使用docker实现

拉取镜像： newnius/hadoop:2.7.1(舍弃)====2020/12/10update:这个镜像不行，用的是tm什么轻量级linux发行版，我吐了。装了java，没装sdk，我要用yum装sdk，又提示我没装yum，我要用npm装yum，又要我装npm，我用wget装npm，发现wget也没有，我服了====创建主节点，子节点01，子节点02容器：注意，docker创建容器的时候不允许大写字母开头docker run -itd --name master-v /home/mas

2020-12-10 13:29:13 192 4

原创【Docker】day1

Docker学习第一天Docker 学习新手笔记：从入门到放弃Hellow world在服务器上安装docker：(使用国内镜像)服务器版本：Centos7curl -sSL https://get.daocloud.io/docker | sh

2020-12-10 12:10:32 176

原创信用分建模

信用分模型目前有nnn个样本，每个样本表示一个贷款客户的信息。则第iii个样本表示为xi.yi{x_i.y_i}xi.yi，其中 y∈{0,1}y\in \{0,1\}y∈{0,1}写成矩阵的形式：X={1x1,1x1,2...x1,r1x2,1x2,2...x2,r...............1xn,2xn,3...xn,r}X = \left \{\begin{aligned}1 && x_{1,1} && x_{1,2} && ...

2020-12-07 13:19:25 238

原创【hadoop】2.配置伪分布式

1.查看正在运行的docker容器：docker ps -a2.进入docker 容器docker exec -it hungry_hofstadter bash

2020-11-26 22:43:46 113

转载【linux】yum换源

CentOS 7的yum更换为国内的阿里云yum源

2020-11-25 20:05:40 98

原创【tensorflow2.x】day1-搭建tf2.x-linux开发环境

第一步：找项目动手学深度学习-tensorflow2.x第二步：按照readme运行doctify服务器报错：解决方案

2020-11-21 01:06:12 108

转载【macos】command not find 解决方法

参考一

2020-11-09 10:06:33 679

转载【kettle】1.安装kettle-macos

macos安装kettle

2020-11-09 09:33:30 236

原创【hadoop】1.配置java环境

#环境centos7一行命令完事：yum -y install java-1.8.0-openjdk输入：java -version如果没问题就说明装好了然后还有添加java环境变量打开文件vim /etc/profile在末尾添加unset iunset -f pathmungeexport JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.262.b10-0.el7_8.x86_64/jreexport JRE_HOME=${

2020-11-05 11:43:39 423

转载【centos】进程挂起，后台运行

使用nohup(no head up表示不挂起),也就是转入后台运行，不接受shell关闭的影响，可以一直在后台运行。一般的命令形式：nohup command &转载于centos使用nohup具体介绍：Unix/Linux下一般比如想让某个程序在后台运行，很多都是使用 & 在程序结尾来让程序后台运行。比如我们要运行mysql在后台：/usr/local/mysql/bin/mysqld_safe --user=mysql &　但是假如我们很多程序并不象mysqld一

2020-10-29 12:16:45 2549

原创【数据清洗】文件名循环读入数据清洗

"文件名循环读入数据清洗"import osimport pandas as pdorder = []#根据后缀判断文件是否是我们想要的，添加到order列表里for i in os.listdir("./lis/"): if i.split(".")[1] == "txt": order.append(i)dataobjlis = [] #使用enumerate函数返回下表与元素，用来动态命名变量，for k,j in enumerate(order):

2020-10-19 10:35:35 198 1

原创【并行与分布式计算】第一部分：代码测试

并行与分布式计算一、代码测试学习内容：环境介绍pytest,pytest-benchmarkpart2:一、代码测试学习内容：pytest,pytest-benchmarkcProfileKcachegrindline_profilermemory_profiler环境介绍python环境：python3.6IDLE环境：pycharm系统：win10 专业版pytest,pytest-benchmark1.pytest版本和python版本挂钩，不是最新的python最好别用

2020-10-03 01:32:39 599

原创【不解决问题你打我】虚拟机与主机NATSSh问题（使用校园网）

简介：名词：NAT模式（网络地址转换）名词解释：百度用法场景：当局域网ip地址紧张或者不允许在局域网下有新的ip的时候，我的情况是在宿舍使用校园网的时候发现桥接网卡无法使虚拟机连上网络，因为校园网只允许一个ip，所以就只能使用NAT模式，就是主机与虚拟机共用一个ip，通过映射端口来走流量的一种操作。目前我只测试了windows平台，以后会添加macos平台的。操作环境主机：windows10专业版寄生机：centos7,unbuntu16.0/ubuntu18,0虚拟机软件：VirtualBo

2020-09-26 17:33:25 895

原创数学建模依我见

论文，编程，建模3缺一不可能完成高质量的论文比喻：基本盘，锦上添花，核心。本人目前大三，总共参加大大小小的数学建模5，6次左右，所以有一些心得想跟大家分享。首先是一般的队伍容易凡的错误：1.盲目选题，在正式比赛中选择和队伍的专业不相匹配的问题，容易翻车。2。没有明确的计划，不懂第一步要干嘛，下一步要干嘛，做之前没有提纲，完全凭借记忆和感觉走，一般是组长的锅，容易翻车。3。忽视队员水平，在建模中与其说各有各的擅长，倒不如说各有各的不擅长，抓住这一点再进行任务的分配，不要让不擅长的人做不擅长的事，

2020-08-09 18:46:12 252

原创用python从头写一个BP神经网络

神经网络

2020-06-28 21:27:46 1470

原创数据科学作业529

1(a)iii;(b)1552(a)1.F=12.6,P<2.2∗10−16<α=0.052.2*10^{-16} < \alpha=0.052.2∗10−16<α=0.05说明预测变量与响应变量存在线性关系2.R2=0.78R^2=0.78R2=0.78说明预测变量与响应变量有较强的相关性3.正相关4. 14.2置信区间：[6.45,23.94](b)3（a）( c ) 1. F=22.52，P<2.6∗10−13<α=0.05P< 2.6

2020-05-30 00:26:53 422

原创实验设计第五次作业

1. 均匀设计的出发点和目的是什么?答：为了降低实验次数，在试验因素增加的情况下，使用较少的试验次数发掘更多关于实验的信息2. 均匀设计与正交设计不同的地方有哪几方面? 请根据你的理解做简要说明.答:正交设计考虑均衡分散即试验点在试验范围内散布均匀以及整齐可比即试验点在试验范围内规律排列而均匀设计不再考虑” 整齐可比” 性, 只考虑试验点在试验范围内充分” 均衡分散”....

2020-05-22 22:11:53 411

原创实验设计第四次作业

题目方差分析（不考虑交互）：#构造数据框y <- c(0,2,5,1,2,4,3,4,6,4,5,7,6,7,8,7,8,10,7,8,10,8,9,10,9,10,12)a <- gl(3,9,27)b <- gl(3,3,27)tree <- data.frame(y=y,a=a,b=b)tree.aov <- aov(y~a+b,data = t...

2020-03-29 17:21:58 257

原创实验与设计第二次作业

你怎么理解全面试验和部分试验?我理解的全面试验：可以定量，成本低廉的情况下做所有可能的实验以分析误差我理解的部分实验：无法穷尽所有可能但是可以定型或定量，受到试验成本的约束下所进行的试验误差分析方差分析的出发点是什么?检验被试个体是相似还是不相似如何理解因素的固定效应?它是一种客观的规律，尽管我们无法穷尽所有可能的预测变量，但至少我们可以从已知的变量关系中发现一些规律，如果说误差...

2020-03-12 18:00:07 255

空空如也

空空如也