非結構化數據分析_離散數據預測-CSDN博客

本文链接：https://blog.csdn.net/yrunagate/article/details/50898278

結構化數據>>數據庫二維表

非結構化數據>>信息檢索自由文本最典型圖片視頻音頻以關鍵字查詢

半結構化數據

文本挖掘的基本流程:

分詞tokenizer

文法處理把他還原成原始單詞 linguistic modules

每個詞作為一列變成結構化數據>>表 structured data

數據挖掘關聯分析異常點檢測

第一階段: 文本處理的過程預處理

非結構化>>結構化

文本表示成向量空間模型二維表

特徵抽取降維

第二階段

數據挖掘機器學習

結構化數據轉換成模式

分類器

把訓練集作為輸入

文本處理

用什麼格式語言字符集 --------- 文本分類的問題

複雜性 : 一個文檔可以包含多個語言例如郵件

分詞
分詞工具

分詞結果是"token"

分完可以作為表屬性特徵表裡面的列訓練集
特徵選擇與抽取???最大謪....

訓練階段

預測階段

降維減少特徵是為了減少訓練時間

使預測模型更快、更小

詞頻是最簡單的方法

文本挖掘 ---分類

二元分類多元分類>>分類體系人工設定

分類體系=知識結構

ex杜威十進制圖書分類

可能是樹型層次結構

分類體系跟機器沒關係

分類vs.預測

分類

主要用於離散數據的預測

1根據訓練集構造分類模型分類體系已事先構造

2.估計分類模型的準確性如果可接受就利用他來對未來數據進行分類

預設

用於連續數據的預測

結構化數據訓練集

算法 (knn 決策樹支持向量機)

分類器classifier

找出一個通用法則>>模型

用testing data來檢測準確率

準確率ok就對未來數據進行預測

Training data

前有n-1個屬性最後有一列屬性

Testing data

同訓練集

Future data

和前兩個不同最後一列不知道

分類器是一個函數f(x)=y 函數映射的過程函數逼近問題

監督學習vs.無監督學習

有監督學習

有訓練集測試集未來數據

無監督學習

聚類
把一堆數據分組

半監督學習

訓練集很少不足以學習但數據給了一些限制

分類有監督

兩歲寶寶給他看幾個水果告訴他紅的圓的是蘋果橘的圓的是橘子>>>建模

拿一個水果問寶寶是什麼>>用模型

聚類無監督沒有指導

給他一堆水果告訴他根據顏色分成兩堆寶寶會將頻果分一堆橘子分一堆

分類預測相關問題

1數據預處理

數據清洗>>>去掉噪聲缺失數據

相關分析>>>特徵選擇最重要特徵有沒有代表性

2評價

準確性

速度訓練時間>>較長預測時間

魯棒性能夠處理噪聲和缺失數據

可伸縮性對磁盤級的數據庫有效分部式環境

易交互性模型容易理解具有較好的洞察力決策樹貝葉思較好理解

文本分類

step1學習階段建模階段 :

輸入

一個訓練集，包含n個文檔及其類標號

--將每個文檔轉成表中的一行

-------issue:怎樣表示這些文檔特徵選擇 ex I am a student

-------通常採用某種類型的高維空間

bag of words 把文檔分割成詞之後看詞頻

輸出

一個分類函數分類器

step2運用測試集看準確度

step3:預測階段:

輸入

一個新的文檔d 不知道其最後的類標籤

將d轉換成和訓練集的行一樣屬性要和訓練集一樣

輸出

文檔d的類別

文本分類例子

支持向量機

特徵

有監督的分類方法可以使用任何特徵

現在採用bag of words

每個文檔是一個向量

每個詞是一個特徵

支持向量機support vector machine

對空間進行劃分

二維找一條線

三維以上找一個超平面

用來分類擅長二元分類

往左往右各碰到不同類的一個點中間的距離就形成空隙這個空隙越大越好>>最大邊緣 the maximum margin linear classifier

w1x1 + w2x2 + ......+ wnxn + b =0

w = [w1 , w2 , .....wn]

x = [x1 , x2 , .......xn]

wx+b=0

w=斜率

b=截距

把m變成(W , b) 的形式

支持向量是由碰到的那些點所創造的

往上是正平面WX+b=1 ------------------(1)

往下是負平面WX+b= -1--------------------(2)

W是直線的法向量

數學推導後得知

M= 2 / ||W|| W最小時M最大

>>>QP的問題

數據有重疊無法直接畫一條線?

仍最大化M 減少出錯點的個數

線性不可分的情況??不管怎樣都分不開?

>>>>>使用kernel方法(核函數) 升維

一維變二維二維變三維屬性不變複雜的核函數理論

ex分辨文章是1作者還是2作者

掃描

詞頻

訓練集

找出最優超平面

測試集

多元svm

把每個類別轉換成二元分類問題

分類評價指標

準確率

召回率

f-measure

作業：　

比賽

搜狗－中國數據庫學術會議萬維網知識提取大賽　

http://iir.ruc.edu.cn/ndbccup2016

把廣告詐騙提取出分開正常數據與廣告數據到六月多

分詞結構化處理分類算法二元結果