基本內容
“
數據科學家”在2009年由NatahnYau首次提出,其概念是採用科學方法、運用數據挖掘工具尋找新的數據洞察的工程師。數據科學家集技術專家與數量分析師的角色於一身,與傳統數量分析師相比:後者通常利用企業的內部數據進行分析,以支持領導層的決策;而前者更多的是通過關注面向用戶的數據來創造不同特性的產品和流程,為客戶提供有意義的增值服務。面向客戶的性質決定了大部分數據科學家擔任公司產品開發或行銷部門的職位,或是效力於首席技術官。那么數據科學家需要具備哪些核心能力呢?科技記者DerrickHarris在其文章中介紹了數據科學家應具備的一些技能。
他表示,在你詢問別人什麼是數據科學家,或者數據科學家是做什麼的時候,很容易發現:“數據科學家”其實是從“大數據”引發的術語混亂中形成的。數據科學的核心能力被定義為:SQL、統計、預測建模和編程、Python等,這些聽起來很合理。但是很快就有更多名詞添加到其中:Hadoop/MapReduce、機器學習、可視化,甚至還有傳統的數學、物理、計算機科學等類似能力。
許多人呼籲專業領域、商業智慧、創造力及表達能力也是同樣重要的。一個數據科學家不能只擅長數字(這種人被稱為統計學家或分析師),也要能夠理解業務:什麼樣的數據或結果才是有參考性的;能夠找到新的數據集並為其創造新產品;然後能夠讓CEO們理解這一切。這是一個艱巨的任務,這個世界上這類人是很少的。作為頂尖的數據科學家,不要求他們對環境做出什麼積極的改變,但是需要他們嘗試做一些真正先進的東西,幫助大家更好的解決業務上的問題。
六種能力
1.對數據的提取與綜合能力;
2.統計分析能力;
3.數據洞察與信息挖掘能力;
4.開發軟體能力;
5.網路編程能力;
6.數據的可視化表示能力。
涉及學科
1.計算機科學:數據獲取、數據解析、數據存放、和數據安全
2.數理統計學:數據分析、數據過濾、數據挖掘、和數據最佳化
3.圖形設計學:顯示數據結果,比如將數據表達成三維圖形,以便更好地理解和利用
4.人機互動學:在用戶和數據之間建立有機聯繫,使得人對數據的使用更方便