簡介
當需要查詢所有相關的網頁或產品銷售時,就必須對多達數拍位元組的數據組進行分類,而數據組本身每天可呈千兆位元組的速度增長,使數據分類的數量和速度不斷推向極限,實時的數據分析需要更好的分類技術,在數據中心,分類常常是許多更高級活動的“瓶頸”,形成太位元組障礙即terabyte障礙。
背景
尋求新趨勢、高效率和其他競爭優勢的公司致力於發展大數據量的分類途徑,通常此項工作需要超強的數據中心。網際網路的運行顯示了數據分類的重要性,社會網路的廣告、亞馬遜網站的推薦以及谷歌的搜尋結果均源自對多達數拍位元組(PetaByte)數據組的分類。
1拍位元組等於1000太位元組。
太位元組
太位元組(TB)是計算機存儲容量的單位。位元組是計算機信息技術用於計量存儲容量的一種計量單位。比特(byte)是最小的存儲單位。計算機存儲單位一般用位元組(B)、千位元組(KB)、兆位元組(MB)、吉位元組(GB)、太位元組(TB)、拍位元組(PB)、艾位元組(EB)、澤它位元組(ZB,又稱皆位元組)、堯它位元組(YB)表示,它們之間的換算關係是:1KB=1024B,1MB=1024KB,1PB=1024TB。
障礙被打破
2010年7月,美國加州大學計算機科學家打破了“太位元組障礙”,創造了在60秒內對超過太位元組數據進行分類的世界紀錄。在被譽為“數據分類的世界盃”的“分類基準”比賽中,他們還追平了最快數據分類率的世界紀錄,172分鐘內數據分類量達到1萬億位元組,不過使用的計算機資源只有原紀錄創造者計算機資源的1/4。