大數據統計建模案例課

20160301

了解方法後 如何用在具體問題中 

嘗試從具體問題出發不侷限於案例 基本分析框架下運用新學的知識 結合

 

抓住問題本質

建模:真實世界 量化 抽出數字概念考慮變量之間的關係 建立模型分析誤差結論

 

統計在大數據環境下能做的不多,

真實>>變量(計數)>>整合到模型 總結變量間的關係 比直接從經驗更可靠 >>誤差 

 

關於全樣本誤差的議題:雖然目前有全樣本的聲浪,有全體就不一定有誤差,這現象不在廣泛意義上存在,目前計算機技術任何問題都能形成總體嗎?目前不可能,未來也不可能,即使形成全樣本,從真實世界到量化的數據也會損失信息。\

優化計算機也強調誤差 也會有闕界

處理誤差時,統計強調隨機誤差,計算機不強調有爭議

誤差>>認知 新的觀念、新的經驗需要專業知識的補充純粹大數據統計基礎不夠  

統計學科再處理真實到變量之間是有經驗的目前依然有經濟統計、政府統計如何評價國家 GDP 國民經濟核算相關統計口徑問題

 

應用統計:統計有哪些佈局  分析團隊 不同背景的人共同合作處理問題

一般統計系學習注重於從模型到誤差 模型-誤差 隨機誤差是怎樣的分布 怎麼假設

 

統計學的機會與危機

機會、可以往哪些方面發展、有哪些優勢

 

統計學+大數據

 

真實世界到變量的過程發生重大變化

從傳統調查實驗到現在的變化

1.數據產生不是以數據分析為目的數據是伴隨品是記錄、監測在線工作時所留下的系統記錄  數據挖掘學科強調有數據後想要得到結論 統計學的邏輯則是注重為了要調查某個東西而去設計某種實驗得到數據

2.依託信息系統設計  大數據內容多是從網上下載 需要借助計算機的存儲技術

3.成本下降數據變多 背後有更多社會現象的關係更多問題被考慮更多人、群體,開始關注問題 注重數據而非經驗 

4.數據變豐富問題更瑣碎要求的專業背景知識更高

5.變量誤差(真實世界到變量之間的誤差)問題更複雜>>

變量誤差變小更少人為干擾更少測量誤差以前可能由於測量工具的關係 數字並不準確 現在依賴信息技術 數據更可靠

EX銀行信貸部門調查企業 企業一定程度會去賄賂信貸部門 因此存在道德風險利益關係糾葛 變量誤差較大 但借助信息系統技術就能控制人為造成的變量誤差

變量誤差變大 數據為伴隨品不是實驗調查設計出的 產生數據不是為了分析 只是一個記錄 人在記錄上放上概念、想法 可能會扭曲數據本身

 

真實到變量間

國民經濟核算 面臨是否要引入伴隨品形式的數據目前統計機構抓取地方數據調查員方式進行 成本高能否運用互連網上的伴隨品?質量控制問題?

靠什麼進入信息系統?

 

發展方向

如何在信息系統的技術下,實現統計口徑的準確性,讓數據不再僅僅是伴隨品?

統計口徑問題依然是個廣泛的問題 學好國民經濟核算 統計口徑相關課程 應用在新的數據源上 加以修改、設計 可降低變量誤差 是統計學可參與的一個角度

 

抽樣方法和實驗設計依然重要Sampling問題受重視實驗經濟學是一獨立學科

 

專業知識對信息系統理解的認知

 

部分案例與問題數據選什麼選變量的問題  已成形的數據 應選哪些來面對問題

 

 

徵信

如何評準信用評分?要選什麼數據?

社交組織資金流水身分徵信人員蒐集

 

 

分個人與企業  企業門檻較低 不需要全體可以劃分行業地區

銀行流水央行支付寶銀行

社交  微信 網頁爬蟲

個人身分身分證(國安局) 手機運營商

實地調查

 

如何整合?

對不同來源進行數據清洗把不同來源的數據分別分析

 

 

社交有爭議如何識別詐騙?

拿什麼數據徵信?

>>活躍度

>>文本分析社交信息的可信度

 

徵信剛開放是蓬勃發展的領域

整合數據難銀行數據是機密  要自己猜 要各別談

 

流水  銀行存在內部  數據獲取有難度

手機監測  百度 阿里軟件  量大 挖掘有困難

社交朋友圈紅包數據能做社交?

實地  出現在企業徵信 個人的話調研成本太高線下的工作跟線上結合調查器

 

數據怎麼選是業務的核心

企業最終的門檻?數據能選什麼搶數據來源例如銀行數據

 

模型:

大小人物

關注

朋友

權重

 

 

 

環保

北京霧霾從企業汙染源煤氣  怎麼監測? 難

數據採及有些網上沒有實地採訪也有難度

有的數據不經過互連網

介入成本高

 

創新

戰略型新興企業

怎麼建立?怎麼定義創新?

創新綠色開放協調共享指標如何定義? 

威脅到傳統經濟社會的統計方法

 

百分之八十的工作在數據上

 

 

分析數據不如找數據

數據量的成本降低稀缺數據的成本門檻沒有降低

搞定數據源是最厲害的

計數到模型間發生變化

 隨機誤差變小 模型誤差變重要

傳統統計受到衝擊

 

假設抽樣統計模型受到衝擊

 

 

強調主次矛盾的分析哲學  重視誤差 

 強調可解釋的分析文化

 

統計模型>>數

圖像影像不認為屬於統計

 

 

N與P

數據量變大從哪個角度?

現實:

N多在時間空間主體或組織

P多在主體 

虛擬

時間更加密集

空間監測點變多EX網址

購物網站商品類別更多數據庫

很重要:時間增加 數據變密 可能模型可以更簡單

空間監測北京交通監測

 

 

N多在時間空間主體

P多在主體位置(IP)  \\更多公司加入

 

 

教什麼?

 

高維數據分析

 

問題:

變量非同質   或許能分層分析? 多層次模型?

樣本量隨機  樣本量不統一  目前處理方式為>>稀疏

 

手機手機殼品牌如何使模型中有更多信息

 

P可能多在社交 位置 有層級結構的組織上 樹狀結構 樹的末梢有很多p 樹狀分層結構加到統計模型 廣告商品 政府組織

很多p有結構

網絡數據

分類數據分析

方差分析

多層模型

分層數據分析

樹相關問題

 

函數數據分析

存在低邊際信息價值的數據

觀測點 如果服從某一特定規律 就能將觀測點降維在某幾個參數上

描述時間和空間的問題

 

 

模型>>統計誤差

誤差怎麼辦?

隨機誤差是多少  1/根號n*sigma head平方

現在n變大之後 sigma已不重要

統計方法變得無用

樣本量變大 一定顯注 獨立同分布假設不適用 

隨機誤差變小 概率論重要性下降

 

可運行性受到挑戰 運籌與優化更為重要 可並行化成為問題

 

提高可行性

最根本是買設備

並行環境下 模型的統計性質分析

 

關於節點個數的討論

存儲 計算資源的分配

 

 

分布式統計模型Aggregation model

分布式再抽樣模型

 

抽樣技術的應用

槓桿點算法

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值