Skip to content
This repository has been archived by the owner on Nov 21, 2024. It is now read-only.

PySpark 實務經驗分享 - 使用 PySpark 探索客戶位置大數據 #10

Open
jazzwang opened this issue Jun 1, 2020 · 0 comments
Open
Labels
Application 應用例 / Application Business Analytics 商業分析 Business Analytics Case studies 實務案例分享 Case studies Visualization & UX 資料視覺化與用戶體驗 Visualization, Design, and UX

Comments

@jazzwang
Copy link
Member

jazzwang commented Jun 1, 2020

  • 講者姓名 Name: 劉豐宇
  • 單位名稱 Organization & Job Title: 國泰金控數數發/資料科學研發科/Data Scientist
  • 講者簡介 Self Introduction: https://www.linkedin.com/in/ferrisliu/
  • 演講主題 Talk Topic: PySpark 實務經驗分享 - 使用 PySpark 探索客戶位置大數據
  • 講題摘要 Abstract:

在金融業中,掌握客群的活動位置就表示多了經營客群的新面向,要如何有效率地處理這些數以億計的資料是各個資料科學家煩惱的問題。Apache Spark 是現今最熱門的開源叢集運算框架,透過 PySpark 可以讓資料科學家使用 Python 開發 Spark 應用程式。

在這個演講中,將會介紹 Spark 處理大數據資料的機制及原理,並且比較 PySpark 與經典資料處理工具 Pandas 和 資料庫語言SQL的差別,以及分享講者在利用 PySpark 開發資料處理程式的實務經驗分享,並藉由操作國泰範例資料讓聽眾了解 PySpark 的特性。最後會介紹客戶活動位置資料在國泰的應用場境,以及國泰數數發如何用客戶活動位置資料提升客戶體驗。

以往資料分析人員在面對大量數據時會選擇以 SQL 處理資料,但是 SQL 語法的非線性結構會使熟悉 Pandas 的 Python 資料科學家們望之卻步,而 Pandas 在處理龐大資料時常會遇到效能和記憶體不足的情形,PySpark DataFrame 的語法架構與 Pandas DataFrame 十分接近,可以讓 Python 使用者輕鬆上手,並且獲得 Apache Spark 叢集運算的記憶體擴充和平行運算的加速效果。將會介紹 Spark 處理大數據資料的機制及原理,比較 SQL 、 Pandas 和 PySpark 的差別以及使用經驗分享,介紹資料科學家在面對不同資料量時應該選擇哪種合適的資料處理工具。

應用場景部份會介紹我們如何串接到客戶信用卡刷商家位置資料,並且為了處理難以被串接的商家位置和確保串接資料正確性,會介紹我們如何利用 PySpark 設計相關演算法以升提升資料品質,並可以在短時間內處理完數十億筆的交易資料,用已補足無法被串接的商家位置。

@jazzwang jazzwang added Business Analytics 商業分析 Business Analytics Case studies 實務案例分享 Case studies Visualization & UX 資料視覺化與用戶體驗 Visualization, Design, and UX Application 應用例 / Application labels Jun 1, 2020
Sign up for free to subscribe to this conversation on GitHub. Already have an account? Sign in.
Labels
Application 應用例 / Application Business Analytics 商業分析 Business Analytics Case studies 實務案例分享 Case studies Visualization & UX 資料視覺化與用戶體驗 Visualization, Design, and UX
Projects
None yet
Development

No branches or pull requests

1 participant