廣州總校區(qū)切換校區(qū)
復制成功
微信號:togogoi
添加微信好友, 詳細了解課程
已復制成功,如果自動跳轉微信失敗,請前往微信添加好友
打開微信

Spark和Hadoop上的數(shù)據(jù)科學

課時總數(shù):18課時

課程介紹

      通過Cloudera公司提供的數(shù)據(jù)科學培訓和認證,將您的知識提升到一個新的水平。

 數(shù)據(jù)科學家?guī)椭?、企事業(yè)單位及科研院校創(chuàng)建大數(shù)據(jù)時代的新型信息平臺,用于對海量數(shù)據(jù)進行深度挖掘、從中提取有用的信息,用于回答以前無法解決甚至是無法想象的問題。

學員將學習數(shù)據(jù)科學家是如何使用Hadoop和Spark技術來幫助企業(yè)改進現(xiàn)有產(chǎn)品、開發(fā)新產(chǎn)品新應用,留住用戶并開拓市場,降低成本,提高收益,發(fā)現(xiàn)和帶來新的商業(yè)機會。

Cloudera大學為期3天的數(shù)據(jù)科學家課程幫助學員理解什么是數(shù)據(jù)科學家,他們解決什么樣的問題,以及使用何種高效工具和新技術。通過課堂模擬,學員學會如何運用數(shù)據(jù)科學的方法來應對并解決現(xiàn)實中來自不同行業(yè)的挑戰(zhàn),為以后勝任數(shù)據(jù)科學家的角色做好準備。

 

一. 培訓內容

       通過講師在課堂上的講解,以及實操練習,學員將學習以下內容:

  •  如何獲取、清洗和綜合來自不同數(shù)據(jù)源的數(shù)據(jù),為分析提供統(tǒng)一全面的視圖。
  •  了解用于從海量數(shù)據(jù)探索潛在商業(yè)價值的統(tǒng)計方法。
  •  掌握何時將Hadoop streaming 和Apache Spark 嵌入搭建數(shù)據(jù)科學所需的數(shù)據(jù)產(chǎn)品流水線中去。
  •  了解數(shù)據(jù)科學項目所需的機器學習技術。
  •  如何使用SparkMLlib實現(xiàn)和管理推薦系統(tǒng),如何設置和評估結果。
  •  了解將新開發(fā)的分析項目部署到大規(guī)模產(chǎn)品環(huán)境中可能碰到的擴展能力問題及如何規(guī)避。


 

二. 培訓對象及學員基礎

本課程面向軟件開發(fā)人員、大數(shù)據(jù)工程師以及高級數(shù)據(jù)分析人員。學員需掌握使用Linux環(huán)境的基本技能,建議具備Hadoop方面的基本知識或經(jīng)驗:HDFS,MapReduce,HadoopStreaming,以及ApacheHive等,并能熟練使用至少一種腳本編程語言,建議Python,或者熟悉其他語言譬如Perl或Ruby。

 

三. 數(shù)據(jù)科學家認證

在完成本課程的學習后,我們鼓勵培訓學員繼續(xù)深造并注冊參加Cloudera認證專家:數(shù)據(jù)科學家(CCP:DS)考試。獲得該認證可以讓學員脫穎而出;它可以幫助學員成為該領域的精英,并向雇主和客戶提供與您的專業(yè)知識相關的確鑿證據(jù)。

 

四. 課程大綱

1. 引言

  •  課程簡介
  •  Cloudera簡介
  •  課程安排
  •  介紹


2. 數(shù)據(jù)科學概述

  •  什么是數(shù)據(jù)科學?
  •  數(shù)據(jù)科學日益增長的需求
  •  數(shù)據(jù)科學家的角色


3. 使用案例

  •  金融行業(yè)
  •  零售行業(yè)
  •  廣告行業(yè)
  •  國防和情報行業(yè)
  •  電信及公用事業(yè)行業(yè)
  •  醫(yī)療健康及制藥行業(yè)


4. 項目生命周期

  •  項目生命周期的流程步驟
  •  實操練習應用場景說明


5. 數(shù)據(jù)采集

  •  從哪里獲取數(shù)據(jù)
  •  數(shù)據(jù)采集技術


6. 評估輸入數(shù)據(jù)

  •  數(shù)據(jù)格式
  •  數(shù)據(jù)容量
  •  數(shù)據(jù)質量


7. 數(shù)據(jù)轉換

  •  文件格式轉換
  •  連接數(shù)據(jù)集
  •  數(shù)據(jù)匿名化


8. 數(shù)據(jù)分析和統(tǒng)計方法

  •  統(tǒng)計與概率之間的關系
  •  描述性統(tǒng)計
  •  推理性統(tǒng)計
  •  向量和矩陣


9. 機器學習的基礎知識

  •  概述
  •  機器學習的3C分類
  •  數(shù)據(jù)和算法的重要性
  •  聚焦:樸素貝葉斯分類器


10. 推薦系統(tǒng)概述

  •  什么是推薦系統(tǒng)
  •  協(xié)同過濾的類型
  •  推薦系統(tǒng)的局限性
  •  基本概念


11. Apache Spark和MLlib簡介

  •  什么是Apache Spark ?
  •  MapReduce的比較
  •  Apache Spark基礎知識
  •  Spark的MLlib Package


12. 通過MLlib實現(xiàn)推薦系統(tǒng)

  •  針對潛在因子推薦系統(tǒng)的ALS方法概述
  •  ALS推薦系統(tǒng)超參數(shù)
  •  MLlib中構建推薦系統(tǒng)
  •  調整超參數(shù)
  •  加權


13. 實驗和評估

  •  設計有效的實驗
  •  進行有效的實驗
  •  推薦系統(tǒng)的用戶界面


14. 生產(chǎn)部署和超越


  •  生產(chǎn)部署
  •  提升數(shù)據(jù)產(chǎn)品擴展能力技巧和技術
  •  結果匯總和可視化
  •  如何改進
  •  推薦系統(tǒng)未來展望


15. 總結


Cloudera大數(shù)據(jù)課程體系



<
在線咨詢 ×

您好,請問有什么可以幫您?我們將竭誠提供最優(yōu)質服務!