大數據統計建模上課筆記

   20160223

一、關於課程

1.        大數據統計建模是一門新課,沒人開過,沒有教科書,也沒有足夠論文形成體系。(論文正在做,還沒發表例如:分佈式的高微計算)

2.        書的形成:研究 → 形成體系 → 形成學科 → 重要內容被提取 → 整理成教科書'

3.        是必修中最後一門課。其他五門都是成熟的課,來自成熟的學科,其他五門沒教到的,剩下的都是這門課。

4.        對於這門課的內容建議: 學生1:對於拿到數據如何建模

                                                                 學生2 :與實際相結合

                                                                 學生3:之前課比較應用 需要理論

5.        命題課程:大數據、統計、建模、專業碩士

二、大數據

1.        簡單意義:核心就在"多",4v是宣傳性語言。

         時間是重要維度,時間影響速度,在同樣時間內,速度快,得到的數據就多。

       補充:4v

A.  数据容量大(Volume) TB → PB

B.  数据类型多(Variety)。非结构化数据越来越多,例如:网络日志、音频、视频、图片、地理位置信息等,对数据的处理能力提出了更高要求。

C.  商业价值高(Value)。面對大量數據,如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。

D.  处理速度快(Velocity)。1秒定律。这是大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。

2.        複雜意義:在不同領域中有不同包裝,不同宣傳性的口號,現在全民大數據,全行業大數據,目前大數據遍及所有領域,應用範圍極廣。

        例如:智能交通、物聯網、智能城市、智能製造、交通、徵信、物流、環保、教育、輿情(信息學院在輿情監測領先)、醫療、天文、保險(非壽險方面抽樣數據)、金融、營銷、統計(政府統計)等等

        大數據的應用在企業中,不在大學 

        行行業業都在用統計,尤其是先進國家,而政府提倡後,大家對數據的重視程度提高,對統計學界領域有幫助。

 

3.        最終:目前大數據的發展情況是各大集團(大數據的擁有者)在佈一個生態系統。

        生態系統:企業多個終端都能獲取數據,數據挖掘技术为其核心能力,形成一個體系,運用數據提供信息以及日常營運管理,以極大化利潤,例如:BAT、360、京東。

                  

4.        企業在節點上選擇先介入生態系統-

A.       追求大的同時,也在追求價值。保險、徵信、支付,都是無縫介入實體信息化的過程。

B.       集團內部將各個終端所獲得的信息對接上,形成對生活的完整刻劃。

C.       大數據 → 各行各業努力將世界數字化 → 尋找更多的服務方式

 

5.        一旦信息化數據,數字的力量將被考慮進來,算法、數據庫、信息系統等是真實世界無法做到的。隨便算算---數字集合起來後 怎麼算都可以 → 力量很大

6.        當這個概念普及後,不用幾年大數據將不再神秘,過幾年將不再如此有光芒,然而碩士學習卻只有一次 → 跳出“大數據”一詞的侷限

7.        數字的世界,就留下一個“多"字

 

 

三、數據成本v.s.計算成本

早期

數據的觀測、實驗、調查皆人為

數據成本>計算成本

現在

信息技術、互聯網、存儲技術發展,數據成本越來越低,且此現象隨著時間長期保持

數據成本<計算成本

 

1.        現在大量數據是零成本,因為是附屬品,例如:網上平台,並非刻意取得數據,而是隨著時間增加數據留下,並沒有在數據上花費成本。

2.        技術變革的現象:隨著信息技術的發展,計算能力發生革命性的變化(算盤 → 電腦),計算方法不斷更新,計算成本逐漸下降,而數據的成本下降更快。

3.        成本變革造成企業或個人改變 → 生產關係變革。

4.        時代在發展,相關節點與要素都在變化,數據變多 → 存儲多、越來越便宜 → 計算快 → 問題多 → 方法多。

5.        以速度而言:數據>存儲>計算>問題>方法 

        問題例如:例如:虛網絡與真實世界的相互關係? → 論文多但可用的不多

6.        誰在支持大數據?

A.       存儲變多:硬盤提供商、信息存儲服務器供應商公司得利 → 硬件最快反應

                                      諮詢公司(例如:麥肯錫)指導存儲公司支持大數據

B.       計算能力:由存儲要搬動數據,最根本的是計算能力,芯片的技術是根本。

C.       問題多:誰來為問題買單? → 諮詢公司、學術、領頭羊企業、企業追隨者。

D.       方法:統計發展較慢 → 因為不是直接利益方,不是最早得利者。

 

7.        對統計學科帶來一定挑戰,但方法在學校學,沒有企業快 → 有優勢

         問題、計算、分析步驟 → 在企業學

 

四、統計學

大數據現象很簡單,統計學是什麼很難。統計學科哪些可以跟大數據結合,哪些不能,是很難得知的。

 

有爭論

         -數學是理論的工具  實變函數 概率論 統計是數學的子科

         -數據分析 應用概率論太理論 不是統計的重點 不能與數學形成分割

    統計未能做到 因為數據成本發生變化 人工調查--網路 數據庫 計算機科先 提出數據挖掘 機器學習-有數據密集型特點 但統計沒有這個特點

         -數據生產 加工也包括  統計學幾乎沒有涵蓋

         -數據科學?   數據成本變化 引來學科的紛爭 很多事情統計沒有做到 但至少沒有離新興技術太遠

         -數據工程?

 

 

  

 

 

統計 數學+數據分析-中英文的詞源意思都是分析一個國家

 

由統計發展歷史來看統計為何從分析的中心落到現在情況受到嚴重挑戰?

statistik 德語 國之計 國勢 國運 如何量化這件事就是統計的來源典型例子為GDP

數據化必然有損失

 

此學科最開始的組成:

         1.真實國家

         2.計數的方法 真實世界到數的過程

         3.計算的方法 統計 假設檢驗 模型構建 計算分析

         形成對國家的認識

 

 

演化與發展

         人類對真實分析的需求強烈,除了國家之外 對行業 部門 企業 自然科學等都有需求 統計學的應用範圍擴大

         組成 

                   具體真實的問題 行業發展如何?部門營利得如何?

                   如何定數據  

                   建立模型  

                   形成認知

 

隨著生產力的發展 對數據採集及分析能力的增強 據有這樣技能的人增加

統計學拓展到各行各業

 

 

 

 

面臨問題:

         真實問題

                   提問題難 需要相關專業知識 

         計數

                   依靠專業領域知識 哪些數應該被記錄?發生的行為是否應該計算?專業概念難

統計學科希望從數據的產生 整理 分析 到結論都做到 但實際上一個專業領域的人做不到

         模型

                   研究變量關係 相對抽像 容易留在此學科

         誤差

                   誤差造就統計學 由誤差判斷假設是否成立 嚴謹性

         認知        

對統計學的認知要翻譯成實際問題 也需要專業知識

                   理解問題難 還原問題本身

 

隨著學科應用領域的發展 想留住所有的東西是不可能的 留下模型與誤差兩項

其他需要專業知識

 

隨著數據分析的思想滲透到各個行業,相關知識領域的學科來學分析方法較容易 形成相對應的學科 例如 計量經濟學 精算學 計量環境學

 

反觀今日統計學:

         經濟統計 國民經濟核算

                   國家 對象單一 知識只和經濟 社會學結合

         數理統計 概率論為基礎的

                   方法論

                            抽樣與設計 模型 誤差  採及數據的一般方式

 

 

 

 

 

統計學現況  

理解過程不隨大數據或學科差異而改變 是人們認識社會的一個規定

         真實 -> 計數(量化) 經濟統計,政府統計

研究如何把數滙總起來 統計出來 以研究其中的問題

                   國民經濟核算        

                   各種統計口徑

                   抽樣         實驗設計  這兩種方法在新的數據環境下已微乎其微 不是真實世界到量化技術的核心  對應的背景概念才是核心

         計數 -> 模型    數理統計

                   假設

                   抽樣

                   統計模型

         模型 ->­ 誤差    數理統計

                   應用概率論 分布

                   收斂性質

         誤差 -> 認知    應用統計

 

 

 

五、統計學+大數據

大數據環境下的真實現狀

真實 -> 計數

現在做得比較差的部分 大數據缺少數據層面的設計>>提供的數與真實情況不對應

         原因是因為很多大數據並非由於分析為目地產生的 是由監測或紀錄產生的 是伴隨品 並非對應某個概念 這一部分是大有可為的 

但未必是統計大有可為的 因為現在記錄的方式和過去調查實驗抽樣不同 是依託信息系統設計 要了解在計算機的存儲結構 哪些東西可以留下來 怎麼設計讓數更接近真實情況 要懂信息系統 ex爬蟲要懂html 哪些字符對應的是數據 

 

         計算與數據的成本下降 問題變多 對應的應用學科變得更有優勢 隨著問題的進一步細化 更多瑣碎的問題被提出 擅長一般方法的統計學將更不具備優勢

 

這兩問題使統計學被排除在外

         對專業知識要求更高 一般人更不關注

         variable error  技術與真實的誤差問題變得更複雜

伴隨品 error變大 

信息技術更可靠 測量誤差 真實性 沒有人為干擾 利益糾葛 error變小

 

數據源:感應器 用戶指令

 

統計能提供的幫助??

國民經濟核算?

傳統統計對經濟核算做為有限 目前嘗試做依託大數據的國民經濟核算 但在整個更複雜的企業中統計起不到一般性的作用 

 

各種統計口徑?

由於問題更瑣碎 難度更高 

抽樣方法?

處處受限制

實驗設計?

統計中數據分為觀測數據與實驗數據  大數據下的數據算在觀測數據中 依託大數據技術做實驗設計 統計不易進入

        

 

 

 

嘗試研究下列領域的統計口徑

智能交通

         物聯網

         智慧城市

         智能製造

交通 徵信 物流 等等 

 

數字化 存在信息缺失 統計的口徑問題長期存在

對抽樣方法和實驗設計  需求中期依然存在 長期有可能消失 例如技術到達全樣本 

 

存在專業知識 對信息系統理解等方面的認知差距

 

計數 -> 模型

 

         數據 變量 對應背景社會現象

 

遇到問題

 

數據量變大 random error變小   model error更顯得重要

xy不是線性模型 但一般還是用線性模型表示 因為線性模型好理解 且我們認可模型誤差一直存在 只要控制隨機誤差在一定範圍內 我們認為模型是有用的 雖然他不是真實世界的精準反應

但現在隨機誤差變小 誤差來源更多來自於模型是否準確 因此人們希望更能控制模型誤差 對更複雜的模型需求提高

同時 數據分佈的假設更困難 貌似統計範圍內的研究 但事實並非如此 當變量多 數據本身的關係更複雜 回歸關係並沒有很好的概括出數據本身的關係 協方差矩陣的相關性並不足以表示數據本身之間的關係 原因是統計模型一般還是來自於比較簡單的數據

對比

                   數據挖掘 機器學習 深度學習 

在這些之前 重要的是隨機誤差 因為抽樣樣本小

         當數據變多 數數之間本身的關係變得重要

  數據挖掘:就數據本身提取訊息 對真實世界不太關注 和統計精神本身有差異 

信息檢索技術隨著數據變多變得更為可貴

傳統統計地位下降

 

數據變多 誤差變小 應用問題中隨機誤差變小 對統計上而言是一種災難 

 

更不用說深度學習  深度學習的強大作用已經體現出來 只需要要機器理解 擺脫了一些包袱 人不必理解中間過程 他只是一個黑箱  這樣的方法更適合數據量變大 維度變多 關係更複雜 

與真實世界相差較遠 沒有隨機誤差的特點 被統計學科排除

        

機器學習的思想 不需要每步模型都可解釋 線性模型優勢下降

 

數據量變大 關係變複雜 分析的文化產生差異 從簡單 直接被人理解  到檢索 監測 搜尋 到機器學習這樣不需要被人所理解的算法  狹義統計學的基本思想受到衝擊 

假設 抽樣 這樣的技術變得不那麼重要

假設太簡單 結論簡單二分法 易被人理解  信息壓縮非常高 損失信息太多

 

方便人類理解的假設 從數據壓縮或信息流失的角度來講 代價非常大 

統計模型 力不從心 

 

六、統計人該怎麼做:

1.強調主次矛盾的分析哲學  統計模型相對其他機器學習而言 最大差異就是隨機誤差 強調隨機誤差是因隨機誤差存在次要矛盾代表有些東西可以被忽略不計我們關心的是x與y的主要關係   

2.強調可解釋的分析文化  強調能夠形成人的經驗與認知的分析結果機器如何學習人不曉得  不能被人所理解的結論對人類社會而言沒有任何進步  如果模型太複雜  我們就很難理解其與被解釋函數之間的關係  不認為他是個好模型 overfit

強調人機的可視化交流

想要被人所認知就需要可視化還沒被計算機領域足夠重視

不需要太多黑箱模型文化上是危險的

 

統計模型假設檢驗大量信息壓縮到只有是與否的結果太粗糙>>希望有更複雜的假設檢驗

p維度n樣本量  真正問題是p n都大的情況

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
提供的源码资源涵盖了Java应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 适合毕业设计、课程设计作业。这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。 所有源码均经过严格测试,可以直接运行,可以放心下载使用。有任何使用问题欢迎随时与博主沟通,第一时间进行解答!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值