大數據統計建模案例課

最新推荐文章于 2024-04-28 05:00:00 发布

yrunagate

最新推荐文章于 2024-04-28 05:00:00 发布

阅读量1.1k

点赞数

分类专栏：北京生活

本文链接：https://blog.csdn.net/yrunagate/article/details/51183914

版权

北京生活专栏收录该内容

4 篇文章 0 订阅

订阅专栏

20160301

了解方法後　如何用在具體問題中　

嘗試從具體問題出發不侷限於案例　基本分析框架下運用新學的知識　結合

抓住問題本質

建模：真實世界　量化　抽出數字概念考慮變量之間的關係　建立模型分析誤差結論

統計在大數據環境下能做的不多，

真實>>變量(計數)>>整合到模型總結變量間的關係比直接從經驗更可靠 >>誤差

關於全樣本誤差的議題：雖然目前有全樣本的聲浪，有全體就不一定有誤差，這現象不在廣泛意義上存在，目前計算機技術任何問題都能形成總體嗎?目前不可能，未來也不可能，即使形成全樣本，從真實世界到量化的數據也會損失信息。\

優化計算機也強調誤差　也會有闕界

處理誤差時，統計強調隨機誤差，計算機不強調有爭議

誤差>>認知　新的觀念、新的經驗需要專業知識的補充純粹大數據統計基礎不夠

統計學科再處理真實到變量之間是有經驗的目前依然有經濟統計、政府統計如何評價國家　ＧＤＰ　國民經濟核算相關統計口徑問題

應用統計:統計有哪些佈局分析團隊不同背景的人共同合作處理問題

一般統計系學習注重於從模型到誤差　模型-誤差隨機誤差是怎樣的分布怎麼假設

統計學的機會與危機

機會、可以往哪些方面發展、有哪些優勢

統計學+大數據

真實世界到變量的過程發生重大變化

從傳統調查實驗到現在的變化

1.數據產生不是以數據分析為目的數據是伴隨品是記錄、監測在線工作時所留下的系統記錄數據挖掘學科強調有數據後想要得到結論　統計學的邏輯則是注重為了要調查某個東西而去設計某種實驗得到數據

2.依託信息系統設計大數據內容多是從網上下載　需要借助計算機的存儲技術

3.成本下降數據變多　背後有更多社會現象的關係更多問題被考慮更多人、群體，開始關注問題　注重數據而非經驗　

4.數據變豐富問題更瑣碎要求的專業背景知識更高

5.變量誤差（真實世界到變量之間的誤差）問題更複雜>>

變量誤差變小更少人為干擾更少測量誤差以前可能由於測量工具的關係　數字並不準確　現在依賴信息技術　數據更可靠

ＥＸ銀行信貸部門調查企業　企業一定程度會去賄賂信貸部門　因此存在道德風險利益關係糾葛　變量誤差較大　但借助信息系統技術就能控制人為造成的變量誤差

變量誤差變大　數據為伴隨品不是實驗調查設計出的　產生數據不是為了分析　只是一個記錄　人在記錄上放上概念、想法　可能會扭曲數據本身

真實到變量間

國民經濟核算　面臨是否要引入伴隨品形式的數據目前統計機構抓取地方數據調查員方式進行　成本高能否運用互連網上的伴隨品?質量控制問題?

靠什麼進入信息系統？

發展方向

如何在信息系統的技術下，實現統計口徑的準確性，讓數據不再僅僅是伴隨品？

統計口徑問題依然是個廣泛的問題　學好國民經濟核算　統計口徑相關課程　應用在新的數據源上　加以修改、設計　可降低變量誤差　是統計學可參與的一個角度

抽樣方法和實驗設計依然重要Sampling問題受重視實驗經濟學是一獨立學科

專業知識對信息系統理解的認知

部分案例與問題數據選什麼選變量的問題已成形的數據應選哪些來面對問題

徵信

如何評準信用評分?要選什麼數據?

社交組織資金流水身分徵信人員蒐集

分個人與企業企業門檻較低不需要全體可以劃分行業地區

銀行流水央行支付寶銀行

社交微信網頁爬蟲

個人身分身分證(國安局) 手機運營商

實地調查

如何整合?

對不同來源進行數據清洗把不同來源的數據分別分析

社交有爭議如何識別詐騙?

拿什麼數據徵信?

>>活躍度

>>文本分析社交信息的可信度

徵信剛開放是蓬勃發展的領域

整合數據難銀行數據是機密要自己猜要各別談

流水銀行存在內部數據獲取有難度

手機監測百度阿里軟件量大挖掘有困難

社交朋友圈紅包數據能做社交?

實地出現在企業徵信個人的話調研成本太高線下的工作跟線上結合調查器

數據怎麼選是業務的核心

企業最終的門檻?數據能選什麼搶數據來源例如銀行數據

模型:

大小人物

關注

朋友

權重

環保

北京霧霾從企業汙染源煤氣怎麼監測? 難

數據採及有些網上沒有實地採訪也有難度

有的數據不經過互連網

介入成本高

創新

戰略型新興企業

怎麼建立?怎麼定義創新?

創新綠色開放協調共享指標如何定義?

威脅到傳統經濟社會的統計方法

百分之八十的工作在數據上

分析數據不如找數據

數據量的成本降低稀缺數據的成本門檻沒有降低

搞定數據源是最厲害的

計數到模型間發生變化

隨機誤差變小模型誤差變重要

傳統統計受到衝擊

假設抽樣統計模型受到衝擊

強調主次矛盾的分析哲學重視誤差

強調可解釋的分析文化

統計模型>>數

圖像影像不認為屬於統計

N與P

數據量變大從哪個角度?

現實:

N多在時間空間主體或組織

P多在主體

虛擬

時間更加密集

空間監測點變多EX網址

購物網站商品類別更多數據庫

很重要:時間增加數據變密可能模型可以更簡單

空間監測北京交通監測

N多在時間空間主體

P多在主體位置(IP) \\更多公司加入

教什麼?

高維數據分析

問題：

變量非同質或許能分層分析? 多層次模型?

樣本量隨機樣本量不統一目前處理方式為>>稀疏

手機手機殼品牌如何使模型中有更多信息

Ｐ可能多在社交　位置　有層級結構的組織上　樹狀結構　樹的末梢有很多ｐ　樹狀分層結構加到統計模型　廣告商品　政府組織

很多ｐ有結構

網絡數據

分類數據分析

方差分析

多層模型

分層數據分析

樹相關問題

函數數據分析

存在低邊際信息價值的數據

觀測點　如果服從某一特定規律　就能將觀測點降維在某幾個參數上

描述時間和空間的問題

模型＞＞統計誤差

誤差怎麼辦？

隨機誤差是多少　　１／根號ｎ＊ｓｉｇｍａ　ｈｅａｄ平方

現在ｎ變大之後　ｓｉｇｍａ已不重要

統計方法變得無用

樣本量變大　一定顯注　獨立同分布假設不適用　

隨機誤差變小　概率論重要性下降

可運行性受到挑戰　運籌與優化更為重要　可並行化成為問題

提高可行性

最根本是買設備

並行環境下　模型的統計性質分析

關於節點個數的討論

存儲　計算資源的分配

分布式統計模型Ａｇｇｒｅｇａｔｉｏｎ　ｍｏｄｅｌ

分布式再抽樣模型

抽樣技術的應用

槓桿點算法

yrunagate

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大數據統計建模案例課

20160301 了解方法後　如何用在具體問題中　嘗試從具體問題出發不侷限於案例　基本分析框架下運用新學的知識　結合抓住問題本質建模：真實世界　量化　抽出數字概念考慮變量之間的關係　建立模型分析誤差結論統計在大數據環境下能做的不多，真實>>變量(計數)>>整合到模型總結變量間的關係比直接從經驗更可靠 >>誤差關於全樣本誤差的議題：雖然目前有
复制链接

扫一扫