基本內容
Java數據挖掘包(JDMP)是一個開源的Java程式庫,用於數據分析和機器學習。它能夠促進對數據源和機器學習算法(如,聚類、回歸、分類、圖形模式和最佳化)的訪問,並且提供了可視化模組。它包含一個用於存儲和處理任何類型的數據矩陣庫,能夠處理非常大的矩陣,甚至當這些矩陣無法寫入記憶體時它仍然能夠處理。JDMP不僅提供了許多算法和工具,並且提供了與其他機器學習和數據挖掘包(WEKA, LIBSVM, mallet, Lucene, OCTAVE)之間的接口。
JDMP主要的優點在於一致的數據表示。對於Linux來說,一切事物均是檔案,而對於JDMP來說,一切事物均是矩陣!例如,可以將幾個矩陣組合成一個變數,如,一個時間序列。可以一個一個地訪問這些矩陣,也可以作為一個單個的大型矩陣來進行訪問。可以將幾個變數組合成一個樣本,如,在分類中有輸入值和目標值的樣本。許多樣本可以形成一個數據集,在交叉驗證測試中可以將數據集進行存儲或分裂操作。可以一個樣本一個樣本地來訪問數據集,也可以用以一個大型矩陣作為輸入值且以一個大型矩陣作為目標值的樣本來訪問數據集。
算法可以操縱變數,樣本或數據集,例如:進行預處理或分類任務。需要強調的是,在JDMP中,數據處理方法是與數據源分離的,因此,算法和數據可能位於不同的計算機上,並且並行處理變成了可能。然而,分散式計算尚未完全落實,只存在於一個概念證明型版本中。