精品福利视频一区二区三区,免费A级毛片无码无遮挡,偷窥目拍性综合图区,亚洲欧洲无码AV电影在线观看,超清无码熟妇人妻AV在线电影

認證培訓,h3c認證體系,網(wǎng)絡(luò )工程師
豐沃創(chuàng  )新

數據科學(xué)家和工程師的“五誡”【豐沃創(chuàng )新北京大數據】

  • 發(fā)布時(shí)間: 2018-3-21 9:29:43

數據科學(xué)家和工程師的“五誡”

1.了解你的數據

好的模型依賴(lài)于好的數據。要建立真正具有生產(chǎn)力的模型,數據科學(xué)家需要知道他們基于創(chuàng )造和存儲產(chǎn)品的數據庫是否可靠,以及數據庫更新的頻率。這些信息在項目開(kāi)始之前就應該被收集并且分享給工程團隊,以避免項目進(jìn)程之中可能產(chǎn)生的阻礙。

在一個(gè)理想的世界里,科學(xué)家和工程師都應該提前做好應對即將發(fā)生的變化的準備(例如,多種變量類(lèi)型之間的變化),使他們能夠據此共同創(chuàng )建,測試和部署相應的新版本。即使不能夠保證避免每一個(gè)程序中的事故,共享資源和盡早發(fā)現缺陷也可以使工程師們降低風(fēng)險和預見(jiàn)解決可能出現問(wèn)題的部分。

2.熟悉合作伙伴使用的工具

數據科學(xué)家運用的主要編程語(yǔ)言是R或Python,這種語(yǔ)言便于數據的清潔,探索和建模。而工程師,卻需要使用多種不同的工具集來(lái)構建可擴展的網(wǎng)絡(luò )和移動(dòng)應用程序(例如,NET、Ruby on Rails、Node.js 或 JVM)。雖然期望一個(gè)人完全懂得使用這兩套工具是不切合實(shí)際的,但是跨過(guò)技術(shù)“藩籬”的限制對對方使用的語(yǔ)言和流程有一個(gè)基本的了解將大大有助于合作的開(kāi)展。

將統計代碼手動(dòng)重新編寫(xiě)為另一種語(yǔ)言是一項費時(shí)費力又極其容易犯錯的工程,所以當出現問(wèn)題的擔憂(yōu)增加的時(shí)候,建立良好的溝通機制(面對面和網(wǎng)絡(luò )數字化的)絕對是至關(guān)重要的。

3.了解技術(shù)的局限

當數據科學(xué)家和工程師運用不同的工具包工作的時(shí)候必然會(huì )遇到技術(shù)的限制。這常常使他們發(fā)狂,因為沒(méi)有人喜歡被要求返工,或者看著(zhù)自己辛勤勞作創(chuàng )造出來(lái)的產(chǎn)品不理想,甚至更糟糕,看到自己的辛勤勞動(dòng)付諸東流。

一旦你清楚了模型開(kāi)發(fā)和部署所需要使用的語(yǔ)言(見(jiàn)誡條2),就應該花時(shí)間研究一下使用這種語(yǔ)言做什么是可能的,什么是完全不能夠實(shí)現的。然后就應該設定定期的跨職能討論會(huì )的時(shí)間表,科學(xué)家和工程師雙方要經(jīng)常溝通例如:你考慮在哪些方面做一些突破?雙方在哪些地方可以做出讓步?哪些又是技術(shù)完全實(shí)現不了的?有沒(méi)有其他選擇?要實(shí)施需要付出多少努力?這些努力符合商業(yè)價(jià)值的考量嗎?

在實(shí)際工作中,假設你是一個(gè)數據科學(xué)家正在為一個(gè)Ruby編寫(xiě)的APP編寫(xiě)一段使用R語(yǔ)言的反欺詐算法,那么你應該知道的是R的GLM功能(用于構建廣義線(xiàn)性模型的函數),在Ruby(或Java,對這個(gè)問(wèn)題來(lái)說(shuō))中并沒(méi)有相對應的本地功能。這時(shí)候就需要大家一起來(lái)一場(chǎng)頭腦風(fēng)暴來(lái)找尋出路啦。

4.互相尊重

在任何時(shí)候,一個(gè)數據科學(xué)家的工作總是需要大家共同的努力才能夠完成,在這個(gè)過(guò)程中充滿(mǎn)了產(chǎn)生誤解的可能。那我們的建議是什么呢?就是像老話(huà)講的,己所不欲,勿施于人。

對于數據科學(xué)家來(lái)說(shuō),你要做的就是寫(xiě)出便于維護和使用的高質(zhì)量的代碼,積極聽(tīng)取工程師關(guān)于重構模型和采取更好替代方法的建議,詢(xún)問(wèn)他們怎樣才是一個(gè)現實(shí)的可實(shí)行的時(shí)間表,你還能提供哪些幫助等。

對于工程師來(lái)說(shuō),與數據科學(xué)家合作,需要明確必須的職責,并且共同商討達成一份書(shū)面的處理問(wèn)題的優(yōu)先次序文件,遵循一個(gè)不斷更新的和現實(shí)的路線(xiàn)圖,并根據項目的進(jìn)程不斷檢驗、細化和落實(shí)科學(xué)的數據模型。

5.履行你的責任和義務(wù)

有人認為一個(gè)模型一旦創(chuàng )造出來(lái),并且投入了實(shí)際的商業(yè)運用,無(wú)論是創(chuàng )造它的數據科學(xué)團隊,還是實(shí)現了它的工程師們就可以自由地著(zhù)手下一個(gè)大項目,不需要再管理這個(gè)項目了。這種想法是非常危險的。事實(shí)上,這只是分析的生命周期的另一階段的開(kāi)始。

因為,數據科學(xué)家和工程師建立生產(chǎn)過(guò)程中的監控和管理模型的計劃是非常重要的。誰(shuí)將會(huì )監督模型和服務(wù)器的穩定性?如何將輸入和輸出數據存儲和共享?升級版本,再培訓和重新測試的路線(xiàn)圖是什么?還要為解決可能出現的問(wèn)題制作一個(gè)行動(dòng)計劃。如果模型吞吐量增加怎么辦?擴展需要花費多少時(shí)間和金錢(qián)?由此確定共同承認的公平的前期職責劃分,相應地分配團隊成員的工作時(shí)間。

總結:

數據科學(xué)家和數據工程師都在朝著(zhù)同一個(gè)目標努力:運用代碼建造程序來(lái)解決實(shí)際的商業(yè)問(wèn)題。不幸的是,誤解和技術(shù)效率低下常常導致人們忽略了這一目標。當我們在工作中處理和他人的關(guān)系的時(shí)候,雖然沒(méi)有萬(wàn)能的神奇公式,但是這五個(gè)誡律應該可以在消除數據工程師和數據科學(xué)家之間的鴻溝上產(chǎn)生深遠的影響。

精品福利视频一区二区三区,免费A级毛片无码无遮挡,偷窥目拍性综合图区,亚洲欧洲无码AV电影在线观看,超清无码熟妇人妻AV在线电影