環境監測:“高冷”大數據開始“接地氣”
為(wei)落實黨中央和國務院對生態環境(jing)(jing)監測大(da)數據的要求,助(zhu)推(tui)環境(jing)(jing)管(guan)(guan)理轉型(xing),近期(qi),環境(jing)(jing)保(bao)護部(bu)行政(zheng)體制與人事司主辦(ban)了大(da)數據與環境(jing)(jing)管(guan)(guan)理轉型(xing)專(zhuan)題培訓班。
“這(zhe)(zhe)次培訓的可貴(gui)之處在于,這(zhe)(zhe)是環境保護(hu)部第一次以先進(jin)信(xin)息化理念為(wei)主要培訓內容的專題(ti)培訓班。”環境保護(hu)部信(xin)息中(zhong)心(xin)主任程春明表示。
培訓班的(de)(de)規(gui)模之大也前所未有,基本覆蓋了環境(jing)(jing)保護部(bu)(bu)、省環境(jing)(jing)保護廳(局)、市(shi)(shi)級(ji)環保局三級(ji)環保系(xi)統。現(xian)場參加培訓的(de)(de)有環境(jing)(jing)保護部(bu)(bu)機關(guan)各(ge)司局級(ji)、處級(ji)以(yi)(yi)上(shang)干部(bu)(bu)、在京各(ge)部(bu)(bu)直(zhi)屬單位主要負責人。全國(guo)各(ge)省(自(zi)治區(qu)、直(zhi)轄市(shi)(shi))環保廳(局)工作人員、部(bu)(bu)機關(guan)其他工作人員則通過遠程(cheng)視頻(pin)會(hui)議系(xi)統設(she)置的(de)(de)45個(ge)分會(hui)場,以(yi)(yi)及內網共171個(ge)視頻(pin)會(hui)議終端同步(bu)觀看了視頻(pin)直(zhi)播。據統計,培訓人數(shu)多達(da)4850人。
主辦方邀請的(de)主講嘉賓也都是(shi)重量級專(zhuan)(zhuan)家(jia),中國(guo)科(ke)學(xue)院虛擬經濟(ji)與(yu)數(shu)(shu)據(ju)科(ke)學(xue)研(yan)究(jiu)(jiu)中心常務副主任石勇(yong),曾(ceng)從事中國(guo)人民銀行個人信(xin)用(yong)評(ping)分(fen)研(yan)究(jiu)(jiu)、實(shi)時信(xin)用(yong)卡審批系統研(yan)發等;阿里巴巴副總(zong)(zong)裁涂子沛是(shi)著名(ming)的(de)信(xin)息(xi)管理專(zhuan)(zhuan)家(jia),著作(zuo)《大(da)數(shu)(shu)據(ju)》、《數(shu)(shu)據(ju)之巔》成為我(wo)國(guo)研(yan)究(jiu)(jiu)大(da)數(shu)(shu)據(ju)的(de)標桿(gan);微軟(ruan)亞洲研(yan)究(jiu)(jiu)院主管研(yan)究(jiu)(jiu)員鄭宇是(shi)多家(jia)高校的(de)客座教授,提(ti)出了“城市計算”理論并(bing)獲得國(guo)內外多個獎項。此外,清華(hua)大(da)學(xue)軟(ruan)件學(xue)院副院長王(wang)建(jian)民、百度總(zong)(zong)編輯趙承、IBM中國(guo)研(yan)究(jiu)(jiu)院研(yan)發總(zong)(zong)監尹文君也都是(shi)大(da)數(shu)(shu)據(ju)領域的(de)資深專(zhuan)(zhuan)家(jia)。
專家們(men)的(de)精彩講座令聽眾大開(kai)(kai)眼界(jie),不(bu)少上午因業務(wu)未(wei)能參(can)加(jia)的(de)人,聞聽反(fan)應熱烈,下午紛紛擠(ji)時(shi)間趕來參(can)加(jia)。許多聽眾表示,大數據培訓不(bu)僅(jin)開(kai)(kai)闊(kuo)了思路,也化解了平時(shi)工(gong)作(zuo)的(de)迷茫。
大(da)數據應(ying)用要避免哪些誤區?
大數(shu)據(ju)冠以“大”字,極容易(yi)讓(rang)人誤以為大數(shu)據(ju)是要窮(qiong)盡(jin)全部的數(shu)據(ju),方能破解難題。
●大數據不只是“大”和“全”
石勇坦言道,很多人確實認為(wei)大數(shu)據(ju)時代就(jiu)是(shi)要研究(jiu)數(shu)據(ju)整體(ti),數(shu)據(ju)量(liang)越大越好,某(mou)些著作也不(bu)(bu)乏(fa)這(zhe)樣的誤導。他解釋說,大數(shu)據(ju)條件下,既要全(quan)數(shu)據(ju),也需要樣本數(shu)據(ju),不(bu)(bu)能有了全(quan)體(ti),就(jiu)拋棄樣本。
“沒有經過(guo)機(ji)器學習(xi)的(de)模(mo)型和(he)算(suan)法(fa)就不(bu)能(neng)發揮預(yu)測作用(yong)。”石勇說,任何大(da)數據(ju)都不(bu)能(neng)違背機(ji)器學習(xi)的(de)過(guo)程,具有預(yu)測作用(yong)的(de)模(mo)型都是機(ji)器學習(xi)的(de)結果。并且(qie)開發一項應用(yong)可能(neng)同時(shi)有很多算(suan)法(fa)和(he)模(mo)型,機(ji)器學習(xi)成(cheng)為(wei)挑選最(zui)優(you)算(suan)法(fa)和(he)模(mo)型關(guan)鍵。
而(er)這一切都依賴于樣本(ben),模型和(he)算法需要通過樣本(ben)進行學習,從而(er)具有可推廣(guang)型和(he)預測(ce)性。如在(zai)1000個(ge)全樣本(ben)中(zhong)挑取(qu)300個(ge)進行機器(qi)學習,將結果推廣(guang)到另外700個(ge)樣本(ben)中(zhong),驗證模型和(he)算法。同時(shi),大(da)數(shu)據中(zhong)抽取(qu)的(de)樣本(ben)普適性更強。
鄭宇(yu)強調說,不(bu)(bu)能盲目迷(mi)信大數據(ju)。數據(ju)并不(bu)(bu)是種類越多(duo)、數量越大,模(mo)(mo)型效果就越好。他認為,不(bu)(bu)同數據(ju)代(dai)表的(de)含義(yi)不(bu)(bu)一(yi)樣,不(bu)(bu)能把所有的(de)數據(ju)放到“黑盒子(zi)”里進(jin)行(xing)計(ji)算(suan),納(na)入模(mo)(mo)型計(ji)算(suan)的(de)每一(yi)類數據(ju)都要經過(guo)驗證,對數據(ju)進(jin)行(xing)有機融合才能發揮1+1>2的(de)效果,否則既浪費(fei)計(ji)算(suan)資(zi)源,也影響模(mo)(mo)型和算(suan)法的(de)性(xing)能。
鄭宇(yu)提出了3條(tiao)驗證數(shu)據(ju)相(xiang)(xiang)關性(xing)的(de)途徑,一(yi)要(yao)(yao)靠前人(ren)的(de)經驗和知(zhi)識(shi)進(jin)行判斷,二要(yao)(yao)對(dui)數(shu)據(ju)相(xiang)(xiang)關性(xing)做可視化(hua)分析(xi),三要(yao)(yao)用實踐證明數(shu)據(ju)與(yu)目標的(de)相(xiang)(xiang)關性(xing)。
●大數據不只是(shi)發現(xian)相關性
大數據時(shi)代最重(zhong)要的(de)一點是,可(ke)以將碎片化的(de)、看似(si)毫無關(guan)聯(lian)、只(zhi)反映某(mou)個方面(mian)表面(mian)現(xian)象的(de)信息進(jin)行關(guan)聯(lian)分(fen)析,從而(er)發現(xian)彼此之間的(de)聯(lian)系,為決策提(ti)供參考。
但石勇(yong)認為發(fa)現數據之間的(de)相關(guan)(guan)性(xing)(xing)還(huan)不夠(gou),還(huan)要通過相關(guan)(guan)性(xing)(xing)研究數據之間的(de)因果性(xing)(xing)和必(bi)然性(xing)(xing),實(shi)現大數據的(de)預測功能,為決(jue)策服務,這才是大數據魅力(li)所在。
鄭宇也認(ren)為,大(da)數據的魅力就在于通過不確(que)定加不確(que)定,形成確(que)定性的結果,從而形成決策指導實踐。
微軟配合環保部(bu)門開(kai)發的(de)(de)城市局地大氣(qi)主要污染物時(shi)空(kong)(kong)分(fen)布大數(shu)據模(mo)型——U-Air,正是將各種不確(que)定的(de)(de)數(shu)據融合在一起(qi),產生(sheng)了(le)確(que)定性的(de)(de)結果(guo)。U-Air可以(yi)預測(ce)任何時(shi)段任何地點1km×1km的(de)(de)空(kong)(kong)氣(qi)質量,準(zhun)確(que)率已(yi)經超(chao)越傳統模(mo)型。
大數據怎(zen)么助推信(xin)息經濟(ji)?
后互聯網時代(dai),數據經(jing)濟為(wei)代(dai)表的信息經(jing)濟已經(jing)初露端倪。涂子沛認為(wei)誰擁(yong)(yong)有(you)數據,誰就(jiu)(jiu)將擁(yong)(yong)有(you)金山,誰使(shi)用(yong)好數據,誰就(jiu)(jiu)會脫(tuo)穎(ying)而出。
●大數據提(ti)升(sheng)效率
涂子沛認為信息經濟的首要表現是大數據引發的效率革(ge)命(ming)。
滴(di)(di)(di)滴(di)(di)(di)快(kuai)車正(zheng)是(shi)大數據時(shi)代下信息經濟的(de)(de)典(dian)型(xing)應(ying)用。滴(di)(di)(di)滴(di)(di)(di)快(kuai)車通(tong)過整合(he)司機(ji)和(he)公(gong)眾的(de)(de)供求信息,為(wei)雙方提供更加(jia)對(dui)稱的(de)(de)信息,達(da)到(dao)(dao)了一石三(san)鳥(niao)的(de)(de)效果(guo),道(dao)路行車效率提高,司機(ji)收入增加(jia),公(gong)眾需求得到(dao)(dao)滿足。據介紹,用了滴(di)(di)(di)滴(di)(di)(di)快(kuai)的(de)(de)等打車軟件,司機(ji)的(de)(de)平(ping)均收入增加(jia)了約(yue)三(san)分之一。
石(shi)勇則提(ti)到實時(shi)信用(yong)卡(ka)審批系統(tong),5秒鐘(zhong)就可(ke)以(yi)辦一張信用(yong)卡(ka),怎么實現的(de)呢?申辦人(ren)的(de)信息輸入個人(ren)信用(yong)系統(tong)后,系統(tong)可(ke)以(yi)在成千(qian)上(shang)萬的(de)信息中搜索跟申請人(ren)相似的(de)信息,通過(guo)類比,系統(tong)對申請者的(de)貸(dai)款申請做出同意或(huo)拒絕的(de)決策。如果申請人(ren)的(de)貸(dai)款申請通過(guo)了,系統(tong)還會(hui)給出建議信貸(dai)額度。
石勇表示(shi),現(xian)代社會高效率運作只有大數據(ju)可以實現(xian),這在以往(wang)完全是無法想象的。
●大數據催生眾包眾籌
大數(shu)據不僅(jin)帶來(lai)了效(xiao)率革命,而且帶來(lai)了新(xin)的資源(yuan)和藍海(hai)。移動互聯(lian)網帶來(lai)的公眾大數(shu)據,是大數(shu)據的新(xin)藍海(hai)。
涂子(zi)沛舉例道,華(hua)(hua)爾(er)街日(ri)報要把(ba)129年的(de)(de)(de)紙(zhi)(zhi)質報紙(zhi)(zhi)電(dian)子(zi)化,但是由(you)于報紙(zhi)(zhi)年代久遠,掃(sao)描(miao)的(de)(de)(de)準確(que)率非常低。如(ru)果用(yong)(yong)人工打字,日(ri)夜兼程也需要將(jiang)(jiang)近48年的(de)(de)(de)時(shi)間。恰巧,當時(shi)校驗碼(ma)(ma)的(de)(de)(de)研發(fa)者(zhe)發(fa)現(xian),校驗碼(ma)(ma)一(yi)(yi)天有幾億(yi)次的(de)(de)(de)應用(yong)(yong)。于是,他(ta)們將(jiang)(jiang)報紙(zhi)(zhi)掃(sao)描(miao)后,分(fen)割成(cheng)(cheng)(cheng)一(yi)(yi)個(ge)一(yi)(yi)個(ge)的(de)(de)(de)校驗碼(ma)(ma),運用(yong)(yong)公眾的(de)(de)(de)力(li)量完成(cheng)(cheng)(cheng)報紙(zhi)(zhi)的(de)(de)(de)電(dian)子(zi)化工作。原理(li)是,如(ru)果3~4人輸入同樣的(de)(de)(de)內(nei)容,就顯(xian)示(shi)內(nei)容識別(bie)正確(que),之后再通(tong)過軟(ruan)件將(jiang)(jiang)正確(que)識別(bie)的(de)(de)(de)驗證碼(ma)(ma)整合起來(lai),僅用(yong)(yong)24個(ge)月就完成(cheng)(cheng)(cheng)了所有報紙(zhi)(zhi)的(de)(de)(de)電(dian)子(zi)化。華(hua)(hua)爾(er)街日(ri)報正是通(tong)過眾包的(de)(de)(de)方式(shi),借助大眾的(de)(de)(de)力(li)量,低成(cheng)(cheng)(cheng)本、高效(xiao)率地完成(cheng)(cheng)(cheng)了報紙(zhi)(zhi)電(dian)子(zi)化。
具(ju)體到環(huan)保領(ling)域,涂子(zi)沛認為未來政(zheng)(zheng)府(fu)可以充當“接(jie)單(dan)員(yuan)”的(de)(de)角色,借助市場(chang)和(he)公眾(zhong)的(de)(de)力量參(can)與(yu)環(huan)境(jing)保護(hu),開(kai)展環(huan)境(jing)管理(li)工作。貴州就已經開(kai)始應用(yong)隨手拍(pai),市民對污染信息拍(pai)照后可以直接(jie)上傳到政(zheng)(zheng)府(fu)部門,政(zheng)(zheng)府(fu)可以根據公眾(zhong)的(de)(de)舉報進行處理(li),這樣有利于形(xing)成(cheng)全民參(can)與(yu)環(huan)保的(de)(de)局面。
此外,大數(shu)據時代還可以調(diao)動公眾(zhong)、企業、環保組織等社會資源,共同挖掘數(shu)據,為(wei)環境管理貢獻力量。原來(lai)僅(jin)靠環保部門一(yi)家完成的(de)(de)事(shi)情,現(xian)在可以由整(zheng)個社會一(yi)起分擔(dan),真正(zheng)實現(xian)環境管理的(de)(de)眾(zhong)包眾(zhong)籌。
大數據應(ying)用需要哪些先決條(tiao)件?
大(da)(da)數據是現代經(jing)濟的助(zhu)推器,但是大(da)(da)數據的實現還需要整個社(she)會做好準備。
●數據整合
石勇認為,大數(shu)據(ju)系統(tong)和(he)模型開發過(guo)程中(zhong),數(shu)據(ju)的(de)篩(shai)選和(he)整理是大數(shu)據(ju)非常重要和(he)關鍵的(de)環(huan)節,但(dan)過(guo)程是非常繁(fan)復的(de)浩大工程,比如中(zhong)國人(ren)民(min)銀行個(ge)人(ren)信(xin)用評分研究中(zhong),要梳理480個(ge)參數(shu)、八億五千萬個(ge)數(shu)據(ju),數(shu)據(ju)處理工作就長達一年(nian)多(duo);中(zhong)國金融期貨交易所(suo)項目,為從歷史交易數(shu)據(ju)中(zhong)挖掘出對結算會員風險預測,數(shu)據(ju)的(de)收集和(he)整理也花費了半年(nian)多(duo)時間。
石(shi)勇將(jiang)數(shu)據(ju)挖掘分為6個步驟,其(qi)中第二(er)、第三步都是有(you)關數(shu)據(ju)收集和整合工作(zuo)。首先(xian)要對數(shu)據(ju)進行(xing)篩(shai)選,嚴格要求進入模(mo)型的(de)數(shu)據(ju),避免就是垃圾數(shu)據(ju),數(shu)據(ju)模(mo)型中最忌諱(hui)“零”,可(ke)能導致(zhi)模(mo)型清空(kong);其(qi)次,要對篩(shai)選的(de)數(shu)據(ju)進行(xing)統(tong)計(ji)計(ji)算、回(hui)歸分析等(deng)預處理工作(zuo)。
“大數(shu)(shu)據(ju)建設的(de)前提(ti)就(jiu)是要對數(shu)(shu)據(ju)整(zheng)(zheng)理(li)和整(zheng)(zheng)合(he)(he),數(shu)(shu)據(ju)不整(zheng)(zheng)合(he)(he)就(jiu)沒有力量。”石勇表(biao)示(shi),同樣,環保部門數(shu)(shu)據(ju)的(de)整(zheng)(zheng)理(li)和整(zheng)(zheng)合(he)(he)也是環保大數(shu)(shu)據(ju)的(de)第一步(bu)。
●數據開放
與數(shu)據整合同樣重要的(de)(de)是(shi)數(shu)據開放(fang),數(shu)據只有(you)(you)開放(fang)、有(you)(you)價(jia)值才能成為共享(xiang)的(de)(de)大數(shu)據。上世紀80年(nian)代(dai)立法后,美(mei)國的(de)(de)企業(ye)開始(shi)開放(fang)數(shu)據,90年(nian)代(dai)企業(ye)的(de)(de)排放(fang)量就(jiu)下降了50%。
涂子沛認(ren)為(wei)數(shu)據(ju)開放(fang)其實是(shi)一種管理(li)社(she)會的手段,開放(fang)數(shu)據(ju)是(shi)政(zheng)府(fu)與社(she)會實現共治(zhi)的紐帶。政(zheng)府(fu)可以(yi)利用(yong)數(shu)據(ju)實現管理(li),規范數(shu)據(ju)開放(fang)范圍(wei),并(bing)且(qie)可以(yi)將數(shu)據(ju)變為(wei)價值,有償供應一些(xie)數(shu)據(ju)。
數(shu)(shu)(shu)據資源(yuan)的開放(fang)也為環境管理實現眾(zhong)籌(chou)提(ti)供了條件,社會有很多(duo)可以(yi)幫助環保部門共(gong)治的資源(yuan)。通過開放(fang)數(shu)(shu)(shu)據,公民、環保組(zu)織、高校、研究所等(deng)機構便(bian)可以(yi)開展(zhan)更(geng)多(duo)的數(shu)(shu)(shu)據挖掘工作,為環境管理提(ti)供多(duo)種解決方案。

使用微信“掃一掃”功能添加“谷騰環保網”