精品福利视频一区二区三区,免费A级毛片无码无遮挡,偷窥目拍性综合图区,亚洲欧洲无码AV电影在线观看,超清无码熟妇人妻AV在线电影

認證培訓,h3c認證體系,網(wǎng)絡(luò )工程師
豐沃創(chuàng  )新

淺談數據分析中的“暗物質(zhì)”(大數據)

  • 發(fā)布時(shí)間: 2018-3-6 9:55:53

 我們分析數據,更重要的是看到數據中所隱藏的暗物質(zhì),即數據圖中你看不見(jiàn)的數據\邏輯\知識。

大數據

  開(kāi)門(mén)見(jiàn)山,以下是某新聞媒體WAP\APP\PC三端的分周中和周末的PV曲線(xiàn),下面嘗試分析其中是否存在某種規律。

  圖一:newsAPP某周一庫存

  圖二:newsAPP某周日庫存

  1.數據的準確性和代表性

  在分析數據之前,有一個(gè)非常重要的事情,大家往往會(huì )忽略,那就是數據的置信度是多少。

  如果數據的準確性本身存在問(wèn)題,那能產(chǎn)出正確結果的概率與買(mǎi)彩票中獎的概率大概相差無(wú)幾。即便數據是準確地,那還得證明數據具有代表性,你是不是只抽取了一天的數據,你是不是只抽取了一端的數據。

  自然,很多時(shí)候,你必須要進(jìn)行抽樣,那你更要謹慎了,因素那么多,你要保證自己在數據采樣過(guò)程中,考慮了應該考慮的因素。當然,這些數據對于這個(gè)結論很具有代表性,對于另一個(gè)分析目的卻有可能完全沒(méi)有代表性,這些都不能一概而論。

  總之,數據準確性這個(gè)問(wèn)題基本上要在分析之前給出確定的答案。而數據是否具有代表性這個(gè)問(wèn)題由于比較復雜,盡可能的在分析之前考慮清楚的同時(shí),在分析過(guò)程中,一定要隨時(shí)保持著(zhù)質(zhì)疑精神,每向前一步,都要重新考慮數據樣本是否還具有代表性。

  圖三:newsWAP某周一庫存

  圖四:newsWAP某周末庫存

  2.看圖說(shuō)話(huà)

  以下圖中數據經(jīng)受過(guò)了我們多方位的考驗,所以數據基本準確,代表性具體要看你的分析目的。

  基本確定了準確性和代表性后,懷著(zhù)高度質(zhì)疑的精神,讓我們開(kāi)始我們的分析之旅。

  首先,單獨來(lái)看每一個(gè)圖,大家可以很清晰的理解,這六條PV曲線(xiàn)都是與用戶(hù)的行為息息相關(guān)的。從各條PV曲線(xiàn)的變化來(lái)看,用戶(hù)7:00-8:00起床的比較多,22:00是一個(gè)大家進(jìn)入休息比較集中的時(shí)間點(diǎn)。凌晨的2:00-5:00是用戶(hù)活動(dòng)的低谷,而波峰在時(shí)間上一般是20:00-22:00。

  圖五:newsPC某周一庫存

  圖六:newsPC某周日庫存

  3.多項對比

  說(shuō)到這里,細心的大家可能對圖五\圖六中的數據表示質(zhì)疑。因為它不符合我們剛才推出來(lái)的規律。

  比如說(shuō),PC端一天中的波峰時(shí)間是每天的9:00-10:00,而且周一和周日的PV曲線(xiàn)變化非常大。 周一的數據量大周日一兩倍的樣子,而且周日白天的波動(dòng)比較緩和,而周一的波動(dòng)非常大,存在多個(gè)波峰波谷。相反,APP\WAP在周日和周一的PV總量并未出現明顯變化,而且曲線(xiàn)變化規律也大抵相同。

  4.挖掘暗物質(zhì)

  所謂暗物質(zhì),就是數據圖中你看不見(jiàn)的數據\邏輯\知識。

  所謂的數據分析或者挖掘就是挖掘各個(gè)數據之前的關(guān)聯(lián),數據與暗物質(zhì)之間的關(guān)聯(lián)。

  仔細想來(lái),我在“看圖說(shuō)話(huà)”中的推理其實(shí)利用了先驗知識,也就是說(shuō)大家有起床后看新聞和睡覺(jué)前看新聞的習慣,事實(shí)真的是這樣嗎?事實(shí)大概確實(shí)如此,但是在分端上可就不同了。

  APP\WAP都是移動(dòng)設備上可以觸及的渠道,所以基本可以與用戶(hù)的起居習慣相吻合。但是PC端并非觸手所及,并不能完全和用戶(hù)的起居相吻合,畢竟你零碎時(shí)間里可以打開(kāi)手機,卻不太可能去打開(kāi)電腦。

  上面我說(shuō)到PC端并不能很好的反映用戶(hù)的起居,那他能反映用戶(hù)的什么呢。想想我們平時(shí)使用PC的場(chǎng)景,PC端數據是否能反映用戶(hù)的上班時(shí)間特性?這點(diǎn)確實(shí)能給出數據支持。

  一是周一比周日PV量大,說(shuō)明周末使用PC的用戶(hù)少,周中上班時(shí)間就身不由己了,所以PV量比較大。周日和周一的曲線(xiàn)波動(dòng)也完全能理解了,周一的PV的上漲時(shí)間落后于起居時(shí)間是因為那是上班時(shí)間,延遲的一小時(shí)左右要吃飯\要擠地鐵啊,9:00左右(上班的集中時(shí)間點(diǎn))大家都坐定了,刷一下新聞,PV量也就達到最大。

  9:00-11:00期間的PV量幾乎沒(méi)有太大變化,但11:00開(kāi)始就開(kāi)始慢慢下跌了,一直持續到12:00,這個(gè)可能與大家要逐漸去吃午飯相關(guān),經(jīng)過(guò)了12:00-14:00的午休階段,PV量存在一定上漲。

  等到下午17:00,又開(kāi)始下降了,到了18:00基本降得差不多了。大家基本都已經(jīng)下班了。所以,我們可以說(shuō)周日創(chuàng )造PV的這些用戶(hù),周中也會(huì )同樣創(chuàng )造PV,而周一多出來(lái)的這些PV,其用戶(hù)特征完全符合上班特性,或者說(shuō)其特性完全符合朝九晚五的上班族。

  5.反復求證

  你的數據真的對了嗎? 那我們可以說(shuō)創(chuàng )造PC端PV波動(dòng)的這些朝九晚五的用戶(hù)是國企員工嗎?我們可以說(shuō)國企員工上班就是看看新聞,聊聊天嗎?那我們是否可以說(shuō)互聯(lián)網(wǎng)員工上班就不看新聞。

  我們取得就是來(lái)看新聞的UV產(chǎn)生的PV數據,得出來(lái)的數據當然是這樣了�;ヂ�(lián)網(wǎng)員工的行為是否被湮沒(méi)在其他原因中了?這是我上面提到的,始終要保持質(zhì)疑精神。你的數據對于之前的分析是有代表性的,可是分析以上問(wèn)題,可以說(shuō)是一點(diǎn)代表性都沒(méi)有。

  有些人數據分析時(shí)已經(jīng)早有結論,往往數據選擇和分析時(shí)便會(huì )不自覺(jué)的有所傾向,難免會(huì )得出與自己假設相同的結論。所以我們在得出結論時(shí),其實(shí)還要從其他很多方面進(jìn)行求證,包括去掉某因素后,現象是否會(huì )消失等等。

  6.你的結論真的對了嗎?

  之前朋友圈流傳著(zhù)這樣一個(gè)消息:有權威分析機構經(jīng)過(guò)數據分析發(fā)現,戰狼2和瘋狂動(dòng)物城的票房都很高,但兩者用戶(hù)重合度并不高。戰狼2的觀(guān)看用戶(hù)更喜歡喝冷飲,而瘋狂動(dòng)物城的用戶(hù)卻更喜歡奶茶。但其實(shí)瘋狂動(dòng)物城上映在冬季,而戰狼2上映在夏季。即便經(jīng)過(guò)反復求證,我們也只能說(shuō)是結論的置信度越來(lái)越高了,并不能證明這是對的。所以,除了盡可能的反復求證,剩下的方法是就是進(jìn)行數據驅動(dòng)策略的驗證了。驗證可以分為對照組等等,此處不再贅述。

  7.猜猜他的用戶(hù)

  如果你細心一點(diǎn),便會(huì )發(fā)現newsAPP\WAP兩端在周日的變動(dòng)相比周一稍稍延后,這估計和大家的周末作息習慣延后有關(guān),至于為什么延后并不多,那說(shuō)明主流用戶(hù)肯定不是那些“上班睡不醒,周末睡不著(zhù)的”年輕人啊。

  8.寫(xiě)在最后

  就是這幾張平時(shí)用來(lái)做實(shí)時(shí)監控的曲線(xiàn)還能扯出這么多東西來(lái)?來(lái)張照片給大家。

  【以下內容來(lái)自百度】中國最著(zhù)名“照片泄密案”,是由1964年《中國畫(huà)報》封面刊出的一張照片引起的。在這張照片中,大慶油田的“鐵人”王進(jìn)喜頭戴大狗皮帽,身穿厚棉襖,頂著(zhù)鵝毛大雪,握著(zhù)鉆機手柄眺望遠方,在他身后散布著(zhù)星星點(diǎn)點(diǎn)的高大井架。日本情報專(zhuān)家據此解開(kāi)了中國當時(shí)最大的石油基地–大慶油田的秘密。

  1、他們根據照片上王進(jìn)喜的衣著(zhù)判斷,只有在北緯46度至48度的區域內,冬季才有可能穿這樣的衣服,因此推斷大慶油田位于齊齊哈爾與哈爾濱之間。

  2、通過(guò)照片中王進(jìn)喜所握手柄的架式,推斷出油井的直徑;

  3、從王進(jìn)喜所站的鉆井與背后油田間的距離和井架密度,推斷出油田的大致儲量和產(chǎn)量。有了如此多的準確情報,日本人迅速設計出適合大慶油田開(kāi)采用的石油設備。當中國政府向世界各國征求開(kāi)采大慶油田的設備方案時(shí),日本人一舉中標。

  慶幸的是,日本當時(shí)是出于經(jīng)濟危機,根據情報分析結果,向我國高價(jià)推銷(xiāo)煉油設施,而不是用于軍事戰略意圖。

  所以數據分析中最重要的是什么?暗物質(zhì)啊!

精品福利视频一区二区三区,免费A级毛片无码无遮挡,偷窥目拍性综合图区,亚洲欧洲无码AV电影在线观看,超清无码熟妇人妻AV在线电影