概述
集算器是數據計算中間件。集算器從資料庫/HDFS/本地檔案中取數,承擔業務邏輯複雜的計算和外存計算,並將結果返回應用程式。藉助HDFS,集算器還可以實現分散式數據的存儲和計算。集算器是開發工具。集算器以自創的離散計算模型為基礎,以格線式代碼為編輯風格,能夠對集合數據、游離記錄等進行有序集合、對象引用、集合式分組等複雜計算,代碼直觀,易於調試。集算器也可以作為硬編碼的ETL開發工具來使用。
集算器是桌面BI工具,即安即用,無需部署,無需額外的伺服器支持,用戶無需事先建模便能進行數據分析,語法簡單,庫函式豐富,適合處理實時、偶發的計算需求。
功能
格線式代碼——集算器是專業的資料庫計算腳本。目前已有的資料庫腳本如SQL,編輯風格大多為文本形式,集算器採用類Excel的格線界面,單元格按行列的序號命名為A1、A2、B1、B2等,用戶可以直接引用。格線代碼天然對齊、縮進,天然形成循環代碼塊,不需要設定tab的縮進格子數,也不需要{}來界定代碼塊範圍。格線代碼提供了整齊清晰的視覺效果,能展現計算步驟之間的關係。SQL不支持分步計算,JAVA/VB等高級語言雖然支持分步計算,但並不直接支持結構化數據的計算,不屬於資料庫計算類的語言。集算器則兼具兩者的優勢,而語法更加簡單。
集合化數據——集合是一種基礎的、被廣泛套用的數據類型,比如客戶名單,本季度訂單等。集合在集算器中作為一種獨立存在的數據類型,其成員可以是任意的數據類型,也可以是另一個集合。集合將抽象的數據具體化,和分步機制結合可大大簡化計算的複雜度。算器實現了徹底的集合化,提供各種集合運算,如和、並、交、差等。
SQL不提倡分步運算,因此也不支持集合;高級程式語言不能直接支持集合操作,需要程式設計師自己實現大段代碼。
此外,集算器欄位中也可以存儲多條記錄或者集合,通過對象引用,集算器可以很容易地表達主子表的關聯關係。
游離記錄——游離記錄是集算器的獨創,是指在形式上脫離了物理表的記錄。用戶可以將游離記錄當作一個對象進行取值、計算、修改,操作時無需像SQL那樣附帶表名,操作的結果可體現在原來的數據集,可以帶給用戶類似訪問對象類型的便利體驗。SQL由於核心模型的不同,提倡書寫長句,因此難以分步計算,也無法提供游離記錄的功能
游離記錄使分析者專注於自己關心的數據,免受不必要的干擾,可以更快速更方便的進行數據計算。計算難度因此有效降低。
有序集合——有序是指數據按照一定的順序存放,每條數據每個成員都有絕對或相對的編號,可以通過序號訪問數據,方便地對數據進行有序操作,比如:定位、排名、排序。有序計算屬於SQL的典型難題,如相對位置訪問(相對於當前記錄(組)的前幾位(組)或後幾位(組))。
集算器支持有序集合,使用序號可以輕鬆地訪問集合的成員並進行和順序相關的計算。
對象引用——集算器提供了比SQL更直觀的方式來處理多表關聯的複雜計算。它支持記錄作為欄位的取值,將外鍵指向記錄的欄位作為本欄位的屬性。欄位取值還可以是記錄集合,主子表能用更直觀的形式存儲。相應的,集算器使用“.”號來訪問欄位的屬性,通過多個“.”號表達多級關聯,從而將資料庫中最難以處理的多表關聯查詢表達為簡單直觀的對象訪問。而在SQL中,關聯表的數量一旦增加,其sql的複雜度呈幾何級數上升。
多層外鍵關聯時集算器的優勢尤為突出。
集合式分組——在集算器中,分組後的數據是以集合的形式存在的,集合中的每個成員都是泛型,可以對應一組數據,集合式分組允許進一步的分步運算、數據重用。
集算器把分組和匯總分離成兩步,先把數據根據分組條件劃分成一個個記錄的集合(稱為組集);然後對著組集可以進行匯總,也可以進行組內排序、過濾,還可以在組內進行二級分組,從而形成多層的數據結構。集算器還可以依據外部數據對齊分組,比如外部傳入的參數、臨時枚舉的數據集合等等,甚至還可以方便地依據布爾表達式進行分組。
集算器還提供2種有特色的分組——對齊分組和枚舉分組。
特點
1、可以部署在多個伺服器上進行並行計算、以多節點並行的方式提高計算性能,有效減輕資料庫的計算壓力,並在保證性能的同時降低成本。2、支持多數據源即多種資料庫或資料庫與非資料庫之間的計算,特別是支持對HDFS的訪問,並提供外存計算機制。
3、同時支持結構化和非結構化數據的計算,可靈活定製個性化算法。
4、可與Hadoop無縫集成,充當Hadoop的存儲過程,充分發揮Hadoop的大數據優勢。
5、語法簡單易學,易於調試和移植,能顯著提升開發效率。
6、可接管報表數據源的準備工作,最佳化數據處理,提升報表的計算性能。
產品構成
集算器的產品構成如圖所示:環境要求:
·JDK版本:JDK1.5及以上版本;
·記憶體:256MB及以上
·套用伺服器:支持所有的JAVA套用伺服器
·資料庫:支持所有提供標準JDBC接口的關係型資料庫
公司簡介
潤乾公司成立於2000年6月,一直致力於企業級產品的創新和推廣。2004年2月,推出潤乾報表3.0,開創了類Excel的報表繪製先河,獨創的非線性報表模型可以零編碼處理各種複雜報表,制表效率大幅超越以國外產品為代表的傳統軟體,是BI展現工具領域裡的革命性產品。
隨著用戶、市場的不斷發展,如何從越來越龐大的海量數據中獲取有效信息成為潤乾公司的關注點。以此為基點,潤乾公司潛心研發4年,並於2013年8月發布了面向大數據的新一代數據引擎產品——集算器。
2013年9月,在潤乾報表的基礎上,潤乾公司推出了強計算報表工具——集算報表,既繼承了潤乾報表的非線性報表模型,又內置了集算器的計算引擎,在保證製作複雜報表能力的基礎上,極大地提升了報表的計算能力。