30年前,約瑟夫·朱蘭(Joseph M. Juran)博士創造了“大質量”一詞,以描述在質量管理領域正在發生的根本性變化。對此,朱蘭博士將產品的質量定義為“小質量”,而將組織所有過程的改進稱之為“大質量”。這種“大質量”徹底改變了質量傘所覆蓋的范圍,并在質量傘之下增加了大量相關內容,從而使質量管理實踐及質量管理觀念發生了根本性改變。
當今世界也正在經歷著另一個從小到大的變革:即由小數據到大數據的變革。對于大數據來講,其所固有的性質正在從正反兩方面深刻地影響著我們的社會,而對于質量專業工作者來講,則必須學會如何在這種大數據時代背景之下長期生存和持續成功。
何謂大數據
大數據是指若干組數據的集合,而這種數據集合所包含的數據量極及龐大而復雜,以至于采用傳統數據庫和數據處理方式無法對其進行有效處理。大數據所包含的巨大數據特點,可以從以下3個方面來理解:
數據儲存容量
當前,儲存在世界上的數據正在直線增長,2013年的數據容量達到1.2zettabyte(1zettabyte等于1021byte),而到2015年,估計世界數據儲存容量將達到8zettabyte,這意味著數字8后面帶有21個0。與此同時,數據儲存成本則以同樣速度直線下降,由二十世紀80年代的每gigabyte(1gigabyte等于109 byte)數據儲存成本為100萬美元,下降到2010年每gigabyte數據儲存成本只有10美分。
數據傳導速度
在此期間,數據傳導速度也如同數據儲存容量增長趨勢一樣得到了快速提高,從而使數據的生成、收集、儲存及處理速度有了大幅度提升,以滿足社會對數據的需要。
數據多樣化
大數據來源于社會方方面面,如數據庫、文件、電子郵件、電話記錄、儀表、傳感器、影像、視頻及音頻檔案、財務信息等,這些都是大數據的來源之處。進而言之,你的行為、言談或在電腦上輸入的文字、訪問過的網站、逗留過的地點、遇見的人…… 等等,都可能會以數據方式被記錄和儲存在某個地方。
大數據的力量
即使在開始階段,大數據也已經對我們生活中的方方面面產生了深刻的影響,并極大地加速了經濟成長、科學進步及國際化發展。
在大數據時代,巨量數據可以被處理,而在一些情況下,所有與一個特別事物相關的數據都可以得到系統地分析。另外,大數據還可以針對某一事物的若干子類信息進行深度探尋和處理,而這一點是采用傳統取樣分析方法根本無法實現的。大數據無論是針對私人企業,還是針對公共領域,在決策過程中都扮演著越來越重要的角色。表1中所列出的一些運用大數據進行分析的案例,則僅僅展示出其冰山一角而已。
大數據現在是一種能夠產生新經濟價值形式的業務原材料。實際上,大數據已經成為了一種價值源,因為數據可以在第一次使用(首次使用)之后,還可以針對不同目的進行一次又一次的使用(二次使用)。
大數據的負面作用
然而,大數據如果沒有得到有效管理,可能會對人類隱私、個人意愿及民主制度產生極大的威脅。最近,眾所周知的美國國家安全機構監視計劃所帶來的激烈爭論正在全世界范圍內發酵,而且還沒有結束的跡象。這一監視計劃引發了關于在大數據時代如何保護普通公民隱私范圍的廣泛討論。大數據不僅僅增加了個人隱私的風險,而且也改變了相關風險的性質。由于大數據可以用于二次使用,這樣傳統保護個人隱私的方法(如:個人信息通告、準許、決定退出及匿名等)的有效性會受到極大的損害。
在美國,越來越多的假釋委員會正在通過大數據進行預先分析,然后根據預先分析結果做出是否準許囚徒假釋的決定。另外,越來越多的城市也采用這種預先分析方法,來選擇和確定是否應當對某個地點和某個人進行額外監視。
如果針對某人所做出的懲罰或監視決定主要是根據其尚未承認的犯罪可能性,那么這種處罰或監視決定將是非常危險的。這一做法的主要問題恐怕已經遠遠超出了法律執行范疇,其中包括雇主開除員工、銀行拒絕抵押貸款或妻子與丈夫離婚等,只因為任何一件已經發生的壞行為都會引發高度犯罪的可能性。
同樣,如果大數據分析結果在預先分析中沒有得到正確判定,那么我們所知道的民主制度也將可能會處于危險之中。
轉變你的觀念
如果這樣的話,那么大數據對于質量專業工作者意味著什么呢?你是否已經準備好來迎接這一徹底改變你生活及工作方式的變革所帶來的挑戰?
你必須改變關于抽樣大小、精確度及因果關系的思維模式。
第一個觀念轉變是從部分轉變到全部。在小數據時代,你要被迫去處理小數據結果,因為你不可能收集并分析所有數據。為了使抽樣統計代表全部人口,你盡可能隨機收集抽樣數據。
然而,實現全面隨機抽樣是比較困難的,即便采用隨機抽樣方法不是不可能的,但隨機抽樣卻很難從子群中抽取到相關數據。隨機抽樣也具有錯失不經常出現但卻很重要信息的風險,而偏見也會不知不覺地產生于抽樣過程之中,例如回答問卷調查。
在大數據時代,你可以收集到更多的數據,甚至全部數據。利用全部數據可以判明數據之間的相互聯系,并可以對數據及其子數據組詳細信息進行深度探究。大數據可以使你自由地核對許多假定事物,以及從不同角度密切審查相關數據。大數據還可以減少由抽樣引起的偏見,因為數據收集都是在人們正在從事日;顒拥那闆r下進行的。
第二個觀念轉變是對可能發生的事放寬精確性。在小數據時代,對一件事物通常會盡可能多地要求其具有明確性和確定性。進入到大數據時代,你不必擔心某一數據觀點會對整體分析造成偏見,因為你可以依靠大量數據進行預先評估。實際上,通過放寬精確性,你可以收集到更多數據來改進預先評估結果的準確性,并幫助你對事實產生更加全面的認識。
誠然,大數據由于其用來收集和分析信息的工具不完善,在某種情況下會產生麻煩。然而,在大數據時代由于追求精確性所產生的困擾通常對事物也是無益的,因為這樣會浪費資源,并阻礙收集和分析更多數據的努力。因此,我們不應當把缺乏精確性當作是一個問題,而應當將其視為事實的一部分。
第三個觀念轉變是對相互關系的因果分析放寬限制。在小數據時代,對相互關系分析的方法選擇往往建立在某種假定的基礎之上,其準確性要通過相互關系分析來核查,而這一經常帶有偏見且僅憑直覺的判斷過程不僅進展緩慢,而且成本昂貴。
在小數據組基礎上對真正因果關系進行調查常常會不切實際,并經常用來作為確認現有知識和信念的捷徑。而在大數據時代,大量數據可供你選擇,強有力的計算功能可以快速確定最佳方法。建立在大數據基礎上的相互關系分析會提供可能性,而不是確定性;可以告訴我們是什么,而不是告訴我們為什么。在許多情況下,這種快速而便宜的無關聯分析已經足夠好了,這種分析如同事先提供可能的理由一樣,有助于因果關系的研究。
獲取更多數據
當今,數據正在成為新的燃料,供驅動經濟發動機使用。終有一天,數據價值將作為一種新資產分類出現在公司的資產負債表中。那些在大數據價值鏈上的相關者,如數據持有者、數據專家及具有大數據觀念的機構,無疑將會從大數據中獲得利益。然而,歸根結底,其最大價值則在于數據本身,這是因為數據常常會說話——數據中總是存在值得人們去學習和認識的知識和信息。數據的價值常?梢酝ㄟ^數據首次使用及其二次使用來獲取。
在數據推動一切的今天,那些掌握了大數據的組織將有機會戰勝其競爭伙伴,并保持領先地位。一個小而靈活機智的組織雖然規模不大,照樣能夠健康發展,與此同時,一個不能掌握全部數據的組織將面臨為生存而戰斗的巨大壓力。
質量專業工作者必須幫助其所在組織獲取更多數據,并通過大數據分析來協助做出正確決定(如表1中所展示大數據分析應用案例)。
你可以通過自動化和數據推動業務過程獲取更多內部數據。大數據不應當只用于撰寫報告,也應當用于提取預測解析模式。
通過從政府所擁有的公共數據庫中挖掘數據,使預測解析結果不僅能夠用于政府管理目的,而且也能夠使非政府組織從中獲益。
組織可以從私人數據持有者那里購買數據,也可以通過中間人將自己掌握的數據與其他數據持有者分享或合并。通過簽署某種業務協議,所有對數據組合并做出貢獻的人都可以從這些數據組中獲得實際價值。
最后,組織通過針對不同目的重復使用數據組,通過將不同數據組結合為新的數據組,通過針對多種用途將數據組延伸到大數據中,并通過收集自然產生的數據(數據已成為人們行為和活動所自然產生的副產品),可以從數據組中獲取并利用更多的價值。在必要的情況下,數據還可以轉賣給數據購買者,而一個組織也可以向其數據使用者收取相關費用。
更新技能
在小數據時代,人們所做出的決定主要根據綜合相關事實、對事物的看法及有根據推測,而貫穿于一生經驗所獲得的才能和知識在傳統決策過程中發揮著至關重要作用。進入大數據時代,這一切正在發生變化,針對任何決定,都要經過大數據分析才能做出,或者至少要經過大數據確認。
質量專業工作者必須學習和掌握與大數據相關的知識和技能,如統計學、初級預測建模、基礎計算機編程等,從而使這些知識和技能在決策過程中發揮有效作用。
關于統計學,相關分析方法及回歸分析方法是最需要掌握的。彼爾遜(Pearson)積矩相關系數是最通用的相關分析方法,以測量兩個變數之間的線性關系,而史皮爾曼(Spearman)等級相關系數則是針對兩個變數之間統計相關性的非參數測量方法。在回歸分析方法方面,最小平方是一種通用的方法,而其他回歸分析程序還有非線性回歸、正交回歸及邏輯回歸方法。
關于預測建模,決策樹是你首先要學習和掌握的一種方法,因為這種方法以其簡明而有效的方式受到了大數據科學家們最廣泛的青睞和應用。這種方法并不像你所想象的那樣復雜。
圖1所示為摩根大通(Chase)銀行所使用的決策樹狀圖,以預測個人抵債人的預付款所產生的相關風險。這種決策樹狀圖基本上是由若干代表價值試驗矩形圖而組成的流程圖結構,而每一試驗結果則直接產生為下一級圖示。每個下一級圖示會引導出一個新試驗,直到做出決定為止(在這一案例中,決策就是預付款的風險)。
為了預測一個抵債人預付款風險,每一個案例采取由高至低倒樹狀形式,并通過一系列試驗來測算,直到做出相應決定為止。例如,這一模型預測抵債人瑪麗·鮑賽(Mary Bowser)有26.5%傾向來預付其抵押。這一預測是基于其數據:利率為8.8%、100000美元抵押及80%貸款/價值比率。針對瑪麗·鮑賽這一案例的預測分析路徑如圖1所示。
另外,可以用于預測建模的工具包括人工神經網絡、對數線性回歸、支持向量機、樹狀網等方法。如果你想要學習預測建模,可以通過閱讀相關網絡和書籍,或通過參加網上課程來獲得相關知識和信息。
質量專業工作者必須學習如何與大數據科學家緊密合作并一道工作。這些大數據科學家是數據分析、人工智能和統計方面的專家,他們的知識與技能是對質量專業工作者所掌握知識與技能的補充,并為大數據時代帶來了新的觀念與做法:他們通常已經養成了不帶任何預先斷定及偏見而讓數據說話的專業化習慣。
同樣,我們應當遵守目前的政府相關方針和法律法規,以保護我們的社會免受大數據風險的影響,并防止產生數據巨頭。為此,未來政府關于大數據方針及相關法律法規發展方向如下:
1. 保持數據使用者對其所作所為負有責任。
2. 實施“差別性隱私”方式,從而使一些數據組合變得模糊不清,這樣針對一個數據的詢問將只會得到大概的結果。
3. 保證人發揮作用,這樣對人產生影響的相關政府及組織所做出的重要決定將取決于人的行為與行動,而不是簡單地建立在大數據分析預測基礎之上。
4. 建立一個新的專業學科(起一個合適的學科名字),以此來擔負起監視和審核責任義務,以及可追溯性和公平競爭的相關工作。
深度探索
在大數據時代,質量專業工作者的某些經驗將會失去價值,以前質量專業工作者作為質量衛士的大多數傳統工作職能會由計算機承擔。質量專業工作者必須探索大數據不能預測的領域:大膽夢想,縝密思考大數據之外的事物,勇于冒險,并發明創造。
另外,質量專業工作還必須成為“右腦思考者”,從而使其能夠以高級概念(設計、故事及交響曲)和高級體會(同感、娛樂及意愿)能力來對自己所掌握的專業技能進行補充。其中,設計就是發現方法和機會并創造美的東西;一個具備敘述故事能力的人一定知道如何構思、講述令人信服的故事;交響樂則如同將不同思想融合到一種新的思想之中;同感就是認同,并理解其他人的感情和態度;娛樂是指從自己的生活中發現樂趣,并從其他人生活中探尋出快樂;意愿則表示對目的和含義的追求。
通過運用全新的觀念、強大而有力的數據集以及得到提升的專業技能,質量專業工作者必將滿懷信心地迎接大數據的挑戰,并在這一新的大數據世界里健康而順利地向前發展。這就是在21世紀里,大質量為我們所展示的一個非常重要的前景。