新用途
反spam的CAPTCHA技術有了新的用途:reCAPTCHA
根據Science的介紹,reCAPTCHA是利用CAPTCHA的原理(CAPTCHA的中文全稱是全自動區分計算機和人類的圖靈測試),藉助於人類大腦對難以識別的字元的辨別能力,進行對古舊書籍中難以被OCR識別的字元進行辨別的技術。也就是說,reCAPTCHA不僅可以反spam,而且同時還可以幫助進行古籍的數位化工作(可以稱為人工OCR)。不知道他們的靈感是否來自於分散式計算的想法?據稱正施用於 4 萬多個網站,並已經幫助解決了來自掃描文本檔案的約 4 億 4 千萬個字詞。
如何使用
reCAPTCHA使用起來並不複雜,大多數獨立blogger所用的wordpress,MT都有相應的外掛程式支持。在註冊一個用戶名後,輸入你的blog域名(只支持域名和子域名),就會的到一個Public Key,把他用在你所用的reCAPTCHA外掛程式上。reCAPTCHA也支持多個站點。
識別過程
安裝成功後,用戶評論就有了CAPTCHA功能。每次CAPTCHA會顯示兩個單詞讓人來識別,其中一個是需要用戶識別的難認詞,另外一個是答案已知的真正的CAPTCHA 詞。軟體將能夠正確識別CAPTCHA詞的用戶看作是人類,當CAPTCHA 詞被正確識別出來後,程式會紀錄用戶對無法閱讀的詞的回答並將其添加到它的資料庫中。這樣就完成了一次人工的OCR識別。
為了改善軟體的精確性, reCAPTCHA 會將最困難的詞傳送給多個用戶並挑選其中有相同答案的作為正確的答案。據說準確率能夠達到99%。
用戶每使用一次這個程式,實際上就是在幫助數字重現1908年《紐約時報》上的某一頁,或者其它古書中的一頁,這對考古學具有重大的意義。
相關文字
2008年8月《科幻世界》躍遷層
您肯定上過論壇吧?幾乎所有正規的論壇都要求註冊時輸入驗證碼,這是為了防止亂髮垃圾廣告的傢伙用註冊機來惡意註冊。這個源自美國卡內基-梅隆大學的發明被稱為CAPTCHA(用於區分人類與電腦的全自動圖靈測試),因為註冊者需要辨識圖片上七歪八扭的文字,而這項工作只有真正的人類才能完成。
要知道,全世界的網路用戶數以億計,對個人來說,辨認文字所花的幾秒時間微不足道,但如果將所有網民的力量利用起來,那便能完成難以想像的浩大工程,而這正是美國賓夕法尼亞州匹茲堡市的CMU研究小組正在做的事。
該小組受一家名為“網際網路檔案館”的非營利組織委託,要將海量的古老書籍和手稿通過OCR(光學字元識別)軟體轉化為電子文本,以方便電腦儲存和查詢。然而,由於原稿的質量太差,可憐的電腦每掃描十個單詞就會錯讀一個,唯一解決的辦法就是人工核對,而這樣的工作顯然不是一個人或一個小組可以勝任的。
為了提高用戶辨識文字的正確率,他們往往被要求辨認兩個單詞,其中一個的答案已經知曉。這樣以來,正確辨認出有答案的那個單詞的用戶,很有可能也會正確辨認另一個單詞。有時候,CMU也會將一個未經辨認的單詞提交給不同的用戶,如果得到的是相同的答案,那這個答案便可以肯定是正確的。
由於許多人氣極高的網站,如Facebook、Twitter和StumbleUpon等,都採用了reCAPTCHA,CMU每天都可以處理大約一百萬個單詞。不過,按照這個速度,要電子化“網際網路檔案館”提供的所有文本,估計還需要400年。
至今
reCAPTCHA已經被廣泛的套用於各個論壇以及類似的留言平台。當然,它也給網友們留下了"萬惡的驗證碼”等一系列笑談和吐槽