┊文章閱讀:次
1. 數(shù)據(jù)工程師
職位描述:處理大量數(shù)據(jù)的公司,并管理數(shù)據(jù)通道。這意味著,當(dāng)需要時,你要能確保有效地從數(shù)據(jù)源收集和檢索數(shù)據(jù),并進(jìn)行清理和預(yù)處理。
為什么它很重要:如果你只處理過相對小的(<5Gb)保存為.csv或.txt文件的數(shù)據(jù)集,那么你可能很難理解為什么會有一些人的全職工作是構(gòu)建和維護(hù)數(shù)據(jù)管道。
這里有幾個原因:
要求:你將使用的技術(shù)包括Apache Spark、Hadoop和/或Hive,以及Kafka。你很可能還需要有一個扎實的SQL基礎(chǔ)。
你要處理的問題聽起來像:
“我如何構(gòu)建一個能夠每分鐘處理10000個請求的數(shù)據(jù)管道?”
“如何清理數(shù)據(jù)集而不用將其全部加載到RAM中?”
2. 數(shù)據(jù)分析員
職位描述:將數(shù)據(jù)轉(zhuǎn)換成可指導(dǎo)業(yè)務(wù)發(fā)展的商業(yè)洞察力。你會是技術(shù)團(tuán)隊和商業(yè)戰(zhàn)略、銷售或營銷團(tuán)隊的橋梁。數(shù)據(jù)可視化將成為你日常工作的重要組成部分。
為什么它很重要:純技術(shù)人員通常很難理解為什么數(shù)據(jù)分析員如此重要,但事實是他們就是很重要。
這些人需要將經(jīng)過訓(xùn)練和測試的模型和大量用戶數(shù)據(jù)轉(zhuǎn)換為讓人易于理解的形式,以便根據(jù)數(shù)據(jù)分析結(jié)論設(shè)計業(yè)務(wù)策略。數(shù)據(jù)分析員幫助確保數(shù)據(jù)科學(xué)團(tuán)隊不會浪費時間在不能提供業(yè)務(wù)價值的問題上面。
要求:你將使用的技術(shù)包括Python、SQL、Tableau和Excel。你還需要成為一個好的溝通者。
你要處理的問題聽起來像:
“什么驅(qū)動了用戶的增長?”
“我們?nèi)绾蜗蚬芾韺咏忉?,最近用戶費用的增加會減少客戶?”
3. 數(shù)據(jù)科學(xué)家
職位描述:清理和探索數(shù)據(jù)集,并做出有商業(yè)價值的預(yù)測。日常工作包括訓(xùn)練和優(yōu)化模型,并將它們部署到生產(chǎn)中。
為什么它很重要:當(dāng)你有一大堆數(shù)據(jù),以至于人類無法解析,同時這些數(shù)據(jù)也很珍貴以至于不能忽略它們時,你需要通過一些辦法從中提取一些可被接受的見解。這是數(shù)據(jù)科學(xué)家的基本工作:將數(shù)據(jù)轉(zhuǎn)換成可被理解的結(jié)論。
要求:你將使用的技術(shù)包括Python、scikit-learn、Pandas、SQL,可能還有Flask、Spark和/或TensorFlow/PyTorch。一些數(shù)據(jù)科學(xué)職位純粹是技術(shù)性的,但是大多數(shù)職位還需要你具有商業(yè)頭腦,這樣你就不會老想著去解決沒有人需要解決的問題。
你要處理的問題聽起來像:
“我們到底有多少種不同類型的用戶?”
“我們能建立一個模型來預(yù)測哪些產(chǎn)品能賣給哪些用戶嗎?”
Copyright @ 2013-2018 中國福建網(wǎng) 版權(quán)所有
聯(lián)系我們
免責(zé)聲明:本站為非營利性網(wǎng)站,部分圖片或文章來源于互聯(lián)網(wǎng)如果無意中對您的權(quán)益構(gòu)成了侵犯,我們深表歉意,請您聯(lián)系,我們立即刪除。