《粵音資料集叢》 旨在將年代久遠、罕見或是具參考價值但已在市面絕跡的粵音文獻在數碼世界重現。本檔案庫收錄了《粵音資料集叢》大部份所引粵音典籍的數碼資料,希望這些資料對其他粵語研究者有所幫助。
「資料」主要指粵音典籍正文所收載的單字粵語讀音資料。至於其他文字內容,如前言、凡例等,如果是簡單文字資料,也會盡量收錄。
本檔案庫資料格式在 2024 年 7 月做了一次較大規模的更新。此前,各書資料主要以 CSV(準確來説是 TSV)格式收錄,部份提供相同格式的 Google Sheet 線上版本,個別新錄入的書籍才會以 JSON 格式收錄。CSV 格式的優點是易於閱讀,缺點是無法很好地呈現結構複雜的資料,也不便於程式處理。此次將所有活躍資料改為以 JSON 格式優先發佈,也將更新流程自動化,以減低《粵音資料集叢》和本檔案庫的更新時間差。此後 CSV 和 Google Sheet 的資料將不會再作更新,本資料庫中的 CSV 格式檔案亦已移走。若使用者想取得以前的 CSV 格式檔案,可到 archive_20240709 分支查看舊版。
- 為減少説明需要及增加易讀性,JSON 檔的欄目會使用中文。
- 又為方便識別,不屬原書內容、由數碼化編者所加資料均會置於「_校訂補充」欄之下。
- 資料檔主要是收錄原書的字、音關聯及字條所在。其餘資料(如部首、筆畫數、字碼)只會視情況收入。釋義、例句等資料也未必會全數收錄。詳情請參閱各書目錄內的説明文件。
- 為方便處理,讀音標記(即又讀、俗讀之類)會進行 normalization 處理,未必忠於原文,如要確認請參考原書。下表是標記值與常見稱呼對照:
標記值 | 常見稱呼 |
---|---|
standard | 正讀 |
also | 又讀, 或讀 |
literal | 文讀, 讀音 |
verbal | 白讀, 話音, 語音 |
common | 習讀, 俗讀, 常讀 |
rare | 罕讀 |
original | 本讀 |
old | 舊讀 |
ancient | 古音, 古讀 |
suggested | 建議讀音 |
mistaken | 誤讀, 錯讀 |
為人手輸入方便和減少出錯,這裏發表的資料檔都是經過電腦程式處理的版本。熟習 Github 的朋友,假如發現當中資料有錯漏需要修正,請建立一個新 issue 方便處理,不要修改後提交 pull request。