介紹
後來開源,現在有PostRank大規模部署和使用,每天處理百萬級任務。Beanstalkd是典型的類Memcached設計,協定和使用方式都是同樣的風格,所以使用過memcached的用戶會覺得Beanstalkd似曾相識。
設計思想
高性能離不開異步,異步離不開佇列,而其內部都是Producer-Consumer模式的原理。
核心概念
Beanstalkd設計裡面的核心概念:
◆ job
一個需要異步處理的任務,是Beanstalkd中的基本單元,需要放在一個tube中。
◆ tube
一個有名的任務佇列,用來存儲統一類型的job,是producer和consumer操作的對象。
◆ producer
Job的生產者,通過put命令來將一個job放到一個tube中。
◆ consumer
Job的消費者,通過reserve/release/bury/delete命令來獲取job或改變job的狀態。
Beanstalkd中一個job的生命周期如圖2所示。一個job有READY, RESERVED, DELAYED, BURIED四種狀態。當producer直接put一個job時,job就處於READY狀態,等待consumer來處理,如果選擇延遲put,job就先到DELAYED狀態,等待時間過後才遷移到READY狀態。consumer獲取了當前READY的job後,該job的狀態就遷移到RESERVED,這樣其他的consumer就不能再操作該job。當consumer完成該job後,可以選擇delete, release或者bury操作;delete之後,job從系統消亡,之後不能再獲取;release操作可以重新把該job狀態遷移回READY(也可以延遲該狀態遷移操作),使其他的consumer可以繼續獲取和執行該job;有意思的是bury操作,可以把該job休眠,等到需要的時候,再將休眠的job kick回READY狀態,也可以delete BURIED狀態的job。正是有這些有趣的操作和狀態,才可以基於此做出很多意思的套用,比如要實現一個循環佇列,就可以將RESERVED狀態的job休眠掉,等沒有READY狀態的job時再將BURIED狀態的job一次性kick回READY狀態。
特性
Beanstalkd基於的源碼安裝和使用很簡單,在此略過。這裡重點介紹一下其幾個很nice的特性。
◆ 優先權
支持0到2**32的優先權,值越小,優先權越高,默認優先權為1024。
◆ 持久化
可以通過binlog將job及其狀態記錄到檔案裡面,在Beanstalkd下次啟動時可以通過讀取binlog來恢復之前的job及狀態。
◆ 分散式容錯
分散式設計和Memcached類似,beanstalkd各個server之間並不知道彼此的存在,都是通過client來實現分散式以及根據tube名稱去特定server獲取job。
◆ 逾時控制
為了防止某個consumer長時間占用任務但不能處理的情況,Beanstalkd為reserve操作設定了timeout時間,如果該consumer不能在指定時間內完成job,job將被遷移回READY狀態,供其他consumer執行。
不足
在使用中發現一個Beanstalkd尚無提供刪除一個tube的操作,只能將tube的job依次刪除,並讓Beanstalkd來自動刪除空tube。還有就是Beanstalkd不支持客戶端認證機制(開發者將套用場景定位在區域網路)。