「小學堂文字學資料庫」是一個形、音、義綜合的文字學資料庫,可提供使用者根據文字的形、音等屬性先檢索出字頭,再透過字頭連接到個別的形、音、義資料庫或字書索引。
本資料庫由臺灣大學中國文學系、中央研究院歷史語言研究所、資訊科學研究所共同開發;臺灣大學整合聲韻資料,中央研究院整合字形資料及開發檢索系統。
本資料庫收錄的字形涵蓋甲骨文、金文、戰國文字、小篆及楷書,總數超過20萬字;收錄的聲韻資料涵蓋上古、中古、近代及現代,總數超過128萬筆;收錄的字書索引資料則超過35萬筆。
本資料庫主要由漢字古今字資料庫及漢字古今音資料庫組成。漢字古今字資料庫由甲骨文、金文、戰國文字、小篆、異體字表資料庫組成,而漢字古今音資料庫則由上古音、中古音、近代音、官話、晉語、吳語、徽語、贛語、湘語、閩語、粵語、平話、客語、其他土話資料庫組成,各資料庫除可互相連結外,也可獨立使用。
本資料庫也包含了形音以外的資料庫,例如甲骨文合集材料來源表資料庫;也提供了一些語文工具軟體的下載,例如吳守禮台語注音字型及輸入法,小學堂增益集。
本資料庫是一個整合型的資料庫,期望能以單一查詢界面,透過檢索出的字頭,銜接網際網路上不同的形、音、義資料庫。初期銜接的資料庫包括教育部的異體字字典及重編國語辭典、原行政院主計處電子處理資料中心的「CNS11643中文標準交換碼全字庫」、中華開放古籍協會的「開放康熙字典」、「數位典藏與數位學習國家型科技計畫」的「國際電腦漢字與異體字知識庫」。
本資料庫、程式碼,及其使用字型整體受到著作權法保護,目前仍在研議未來合宜的授權方式,但使用者操作本網站查詢介面所得之各解析度「字形圖片」及字形屬性資訊,權利人特於此明示主張以CC0 1.0通用方式,在法律許可的範圍內,拋棄該字形圖片及字形屬性資訊依著作權法可得享有之權利,使用者當可安心再行利用該查詢字形圖片及字形屬性資訊。