本文展示如何應用 NumPy 選擇技巧(在文章中進行了解釋)來加速受條件邏輯阻礙的 Pandas Apply 語句。本文的程式碼可在GitHub上取得。
在這裡,我們將討論以下主題:
在由oneAPI支援的 NumPy 中應用 WHERE 或 SELECT來顯著加速某些常見的 Pandas 瓶頸
在 Pandas 資料框 希臘手機號碼列表 架上使用 NumPy SELECT 獲得良好的效能
透過將日期幀轉換為 NumPy 數組,獲得更好的效能
了解如何透過 Pandas 對 NumPy 的依賴來本地加速 Pandas 是很重要的。 Pandas 由 oneAPI 透過 NumPy 提供支援!
當機會出現時,利用 NumPy 方法解決 Pandas apply() 效能問題通常會帶來很高的利潤。由於許多資料幀的大小的性質,通常最好找到一種應用 NumPy 的方法。
雖然尚未包含在本指南中,但英特爾的 AI 工具有一個名為 Modin* 的組件,它是 Pandas 的替代品,並且該軟體包可以顯著加快 Pandas 的運行速度。例如,Modin 可用於解決大於筆記型電腦記憶體容量的問題,並且可以跨節點叢集分配計算。我們的目標是將 Modin 作為未來文章中培訓的一部分。
讓我們從一個奇怪的條件邏輯範例開始,該範例應用於 Pandas 資料幀的列,並為了更好的測量而引入了昂貴的日誌函數。