2007年4月2日 星期一

美國國會圖書館採用 Linux進行館藏數位化的計畫

美國國會圖書館可以說是全世界最重要的圖書館之一。最近幾年來,美國國會圖書館為了確保現有的館藏不會因為時間造成的紙張毀損,讓這些珍貴的資料流失,館藏數位化的工作早已經是如火如荼的在進行當中。比較特別的是,目前美國國會圖書館的館藏數位化計畫完全都是採用 Linux上面的解決方案。

目前美國國會圖書館採用了一套叫做 Scribe的掃描軟體來進行書本的掃描。掃描之後的影像檔會透過網際網路從華盛頓傳送到舊金山的 Internet Archive,然後當地的工作人員會繼續使用 netbpm和 ImageMagick等自由軟體進行影像的修補和字元的辨識。最後,這些館藏的內容會被轉換成 PDF以及 DjVu的格式,或者是一種方便使用者直接在可觸摸式螢幕上瀏覽的 Flip Book格式。完成之後,所有的書本內容都會被存放到一個叫做 PetaBox的儲存系統裡面。這個儲存系統也是完全用自由軟體建構起來的。

目前除了美國國會圖書館之外,還有另外將近四十個圖書館已經加入了 Internet Archive所主導的開放內容聯盟。這些圖書館目前都是採用 Linux上面的 Scribe軟體來進行書本的掃描。估計目前每個月大約有一萬兩千本書被數位化,並放到 Internet Archive網站上面。這個聯盟相信所有的知識都應該要開放出來,讓大家可以自由的取得。

http://www.linux.com/article.pl?sid=07/03/26/1157212