結構化數據>>數據庫 二維表
非結構化數據>>信息檢索 自由文本最典型 圖片 視頻 音頻 以關鍵字查詢
半結構化數據
文本挖掘的基本流程:
分詞tokenizer
文法處理 把他還原成原始單詞 linguistic modules
每個詞作為一列 變成結構化數據>>表 structured data
數據挖掘 關聯分析 異常點檢測
第一階段: 文本處理的過程 預處理
非結構化>>結構化
文本表示成向量空間模型 二維表
特徵抽取 降維
第二階段
數據挖掘 機器學習
結構化數據轉換成模式
分類器
把訓練集作為輸入
文本處理
用什麼格式 語言 字符集 --------- 文本分類的問題
複雜性 : 一個文檔可以包含多個語言 例如郵件
分詞
分詞工具
分詞結果是"token"
分完可以作為表 屬性 特徵 表裡面的列 訓練集
特徵選擇與抽取???最大謪....
訓練階段
預測階段
降維 減少特徵是為了減少訓練時間
使預測模型更快、更小
詞頻是最簡單的方法
文本挖掘 ---分類
二元分類 多元分類>>分類體系 人工設定
分類體系=知識結構
ex杜威十進制圖書分類
可能是樹型 層次結構
分類體系跟機器沒關係
分類vs.預測
分類
主要用於離散數據的預測
1根據訓練集 構造分類模型 分類體系已事先構造
2.估計分類模型的準確性 如果可接受就利用他來對未來數據進行分類
預設
用於連續數據的預測
結構化數據 訓練集
算法 (knn 決策樹 支持向量機)
分類器classifier
找出一個通用法則>>模型
用testing data來檢測準確率
準確率ok就對未來數據進行預測
Training data
前有n-1個屬性 最後有一列屬性
Testing data
同訓練集
Future data
和前兩個不同 最後一列不知道
分類器是一個函數f(x)=y 函數映射的過程 函數逼近問題
監督學習vs.無監督學習
有監督學習
有訓練集 測試集 未來數據
無監督學習
聚類
把一堆數據分組
半監督學習
訓練集很少 不足以學習 但數據給了一些限制
分類 有監督
兩歲寶寶給他看幾個水果 告訴他紅的圓的是蘋果 橘的圓的是橘子>>>建模
拿一個水果問寶寶是什麼>>用模型
聚類 無監督 沒有指導
給他一堆水果 告訴他 根據顏色分成兩堆 寶寶會將頻果分一堆橘子分一堆
分類預測相關問題
1數據預處理
數據清洗>>>去掉噪聲 缺失數據
相關分析>>>特徵選擇最重要 特徵有沒有代表性
2評價
準確性
速度 訓練時間>>較長 預測時間
魯棒性 能夠處理噪聲和缺失數據
可伸縮性 對磁盤級的數據庫有效 分部式環境
易交互性 模型容易理解 具有較好的洞察力 決策樹 貝葉思較好理解
文本分類
step1學習階段 建模階段 :
輸入
一個訓練集,包含n個文檔及其類標號
--將每個文檔轉成表中的一行
-------issue:怎樣表示這些文檔 特徵選擇 ex I am a student
-------通常採用某種類型的高維空間
bag of words 把文檔分割成詞之後看詞頻
輸出
一個分類函數 分類器
step2運用測試集看準確度
step3:預測階段:
輸入
一個新的文檔d 不知道其最後的類標籤
將d轉換成和訓練集的行一樣 屬性要和訓練集一樣
輸出
文檔d的類別
文本分類例子
支持向量機
特徵
有監督的分類方法可以使用任何特徵
現在採用bag of words
每個文檔是一個向量
每個詞是一個特徵
支持向量機support vector machine
對空間進行劃分
二維 找一條線
三維以上 找一個超平面
用來分類 擅長二元分類
往左往右各碰到不同類的一個點 中間的距離就形成空隙 這個空隙越大越好>>最大邊緣 the maximum margin linear classifier
w1x1 + w2x2 + ......+ wnxn + b =0
w = [w1 , w2 , .....wn]
x = [x1 , x2 , .......xn]
wx+b=0
w=斜率
b=截距
把m變成(W , b) 的形式
支持向量是由碰到的那些點所創造的
往上是正平面WX+b=1 ------------------(1)
往下是負平面WX+b= -1--------------------(2)
W是直線的法向量
數學推導後得知
M= 2 / ||W|| W最小時M最大
>>>QP的問題
數據有重疊 無法直接畫一條線?
仍最大化M 減少出錯點的個數
線性不可分的情況??不管怎樣都分不開?
>>>>>使用kernel方法(核函數) 升維
一維變二維 二維變三維 屬性不變 複雜的核函數理論
ex分辨文章 是1作者還是2作者
掃描
詞頻
訓練集
找出最優超平面
測試集
多元svm
把每個類別轉換成二元分類問題
分類評價指標
準確率
召回率
f-measure
作業:
比賽
搜狗-中國數據庫學術會議萬維網知識提取大賽
http://iir.ruc.edu.cn/ndbccup2016
把廣告 詐騙提取出 分開正常數據與廣告數據 到六月多
分詞 結構化處理 分類算法 二元結果