非結構化數據分析

結構化數據>>數據庫   二維表  

非結構化數據>>信息檢索  自由文本最典型 圖片 視頻 音頻    以關鍵字查詢

半結構化數據


文本挖掘的基本流程:

分詞tokenizer

文法處理  把他還原成原始單詞  linguistic modules

每個詞作為一列  變成結構化數據>>表   structured data

數據挖掘  關聯分析 異常點檢測


第一階段: 文本處理的過程 預處理

非結構化>>結構化 

文本表示成向量空間模型 二維表

特徵抽取 降維


第二階段

數據挖掘 機器學習

結構化數據轉換成模式

分類器

把訓練集作為輸入



文本處理

用什麼格式 語言 字符集 --------- 文本分類的問題

複雜性 : 一個文檔可以包含多個語言  例如郵件


分詞 
 分詞工具

分詞結果是"token"

分完可以作為表  屬性 特徵  表裡面的列   訓練集
特徵選擇與抽取???最大謪....


訓練階段

預測階段

降維 減少特徵是為了減少訓練時間

使預測模型更快、更小


詞頻是最簡單的方法



文本挖掘 ---分類

二元分類 多元分類>>分類體系  人工設定

分類體系=知識結構

ex杜威十進制圖書分類

可能是樹型  層次結構 

分類體系跟機器沒關係



分類vs.預測

分類  

主要用於離散數據的預測


1根據訓練集 構造分類模型  分類體系已事先構造

2.估計分類模型的準確性 如果可接受就利用他來對未來數據進行分類


預設

用於連續數據的預測





結構化數據  訓練集


算法 (knn 決策樹 支持向量機)


分類器classifier


找出一個通用法則>>模型


用testing data來檢測準確率

準確率ok就對未來數據進行預測



Training data

前有n-1個屬性 最後有一列屬性

Testing data

同訓練集  

Future data

和前兩個不同  最後一列不知道


分類器是一個函數f(x)=y 函數映射的過程 函數逼近問題


監督學習vs.無監督學習


有監督學習

有訓練集 測試集 未來數據


無監督學習

聚類 
把一堆數據分組


半監督學習

訓練集很少 不足以學習 但數據給了一些限制



分類   有監督  

兩歲寶寶給他看幾個水果  告訴他紅的圓的是蘋果  橘的圓的是橘子>>>建模

拿一個水果問寶寶是什麼>>用模型


聚類 無監督  沒有指導

給他一堆水果 告訴他  根據顏色分成兩堆  寶寶會將頻果分一堆橘子分一堆



分類預測相關問題 

1數據預處理 

數據清洗>>>去掉噪聲 缺失數據

相關分析>>>特徵選擇最重要  特徵有沒有代表性



2評價

準確性

速度  訓練時間>>較長  預測時間

魯棒性  能夠處理噪聲和缺失數據

可伸縮性  對磁盤級的數據庫有效   分部式環境

易交互性  模型容易理解 具有較好的洞察力  決策樹 貝葉思較好理解



文本分類

step1學習階段 建模階段 :

輸入

一個訓練集,包含n個文檔及其類標號

--將每個文檔轉成表中的一行

-------issue:怎樣表示這些文檔  特徵選擇 ex I am a student

-------通常採用某種類型的高維空間

        bag of words  把文檔分割成詞之後看詞頻


輸出

一個分類函數 分類器


step2運用測試集看準確度


step3:預測階段:

輸入

一個新的文檔d 不知道其最後的類標籤

將d轉換成和訓練集的行一樣  屬性要和訓練集一樣


輸出

文檔d的類別



文本分類例子

支持向量機

特徵

有監督的分類方法可以使用任何特徵

現在採用bag of words


每個文檔是一個向量

每個詞是一個特徵


支持向量機support vector machine

對空間進行劃分

二維 找一條線

三維以上 找一個超平面

用來分類  擅長二元分類

往左往右各碰到不同類的一個點 中間的距離就形成空隙  這個空隙越大越好>>最大邊緣 the maximum margin linear classifier


w1x1 + w2x2 + ......+ wnxn + b =0

w = [w1 , w2 , .....wn]

x = [x1 , x2 , .......xn]

wx+b=0

w=斜率

b=截距

把m變成(W , b) 的形式

支持向量是由碰到的那些點所創造的


往上是正平面WX+b=1  ------------------(1)

往下是負平面WX+b= -1--------------------(2)

W是直線的法向量 


數學推導後得知

M= 2 / ||W||     W最小時M最大


>>>QP的問題



數據有重疊  無法直接畫一條線?

仍最大化M 減少出錯點的個數


線性不可分的情況??不管怎樣都分不開?

>>>>>使用kernel方法(核函數)  升維

一維變二維  二維變三維  屬性不變  複雜的核函數理論


ex分辨文章 是1作者還是2作者

掃描

詞頻

訓練集

找出最優超平面

測試集



多元svm

把每個類別轉換成二元分類問題


分類評價指標

準確率

召回率

f-measure


作業: 

比賽

搜狗-中國數據庫學術會議萬維網知識提取大賽 

http://iir.ruc.edu.cn/ndbccup2016

把廣告 詐騙提取出  分開正常數據與廣告數據   到六月多


分詞  結構化處理 分類算法 二元結果



Python网络爬虫与推荐算法新闻推荐平台:网络爬虫:通过Python实现新浪新闻的爬取,可爬取新闻页面上的标题、文本、图片、视频链接(保留排版) 推荐算法:权重衰减+标签推荐+区域推荐+热点推荐.zip项目工程资源经过严格测试可直接运行成功且功能正常的情况才上传,可轻松复刻,拿到资料包后可轻松复现出一样的项目,本人系统开发经验充足(全领域),有任何使用问题欢迎随时与我联系,我会及时为您解惑,提供帮助。 【资源内容】:包含完整源码+工程文件+说明(如有)等。答辩评审平均分达到96分,放心下载使用!可轻松复现,设计报告也可借鉴此项目,该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的。 【提供帮助】:有任何使用问题欢迎随时与我联系,我会及时解答解惑,提供帮助 【附带帮助】:若还需要相关开发工具、学习资料等,我会提供帮助,提供资料,鼓励学习进步 【项目价值】:可用在相关项目设计中,皆可应用在项目、毕业设计、课程设计、期末/期中/大作业、工程实训、大创等学科竞赛比赛、初期项目立项、学习/练手等方面,可借鉴此优质项目实现复刻,设计报告也可借鉴此项目,也可基于此项目来扩展开发出更多功能 下载后请首先打开README文件(如有),项目工程可直接复现复刻,如果基础还行,也可在此程序基础上进行修改,以实现其它功能。供开源学习/技术交流/学习参考,勿用于商业用途。质量优质,放心下载使用。
1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。
1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。
各种安全相关思维导图整理收集。渗透步骤,web安全,CTF,业务安全,人工智能,区块链安全,数据安全,安全开发,无线安全,社会工程学,二进制安全,移动安全,红蓝对抗,运维安全,风控安全,linux安全.zip项目工程资源经过严格测试可直接运行成功且功能正常的情况才上传,可轻松复刻,拿到资料包后可轻松复现出一样的项目,本人系统开发经验充足(全领域),有任何使用问题欢迎随时与我联系,我会及时为您解惑,提供帮助。 【资源内容】:包含完整源码+工程文件+说明(如有)等。答辩评审平均分达到96分,放心下载使用!可轻松复现,设计报告也可借鉴此项目,该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的。 【提供帮助】:有任何使用问题欢迎随时与我联系,我会及时解答解惑,提供帮助 【附带帮助】:若还需要相关开发工具、学习资料等,我会提供帮助,提供资料,鼓励学习进步 【项目价值】:可用在相关项目设计中,皆可应用在项目、毕业设计、课程设计、期末/期中/大作业、工程实训、大创等学科竞赛比赛、初期项目立项、学习/练手等方面,可借鉴此优质项目实现复刻,设计报告也可借鉴此项目,也可基于此项目来扩展开发出更多功能 下载后请首先打开README文件(如有),项目工程可直接复现复刻,如果基础还行,也可在此程序基础上进行修改,以实现其它功能。供开源学习/技术交流/学习参考,勿用于商业用途。质量优质,放心下载使用。
1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。
1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值