Skip to content

jyutnet/cantonese-books-data

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

粵音資料集叢:典籍資料檔

說明

《粵音資料集叢》 旨在將年代久遠、罕見或是具參考價值但已在市面絕跡的粵音文獻在數碼世界重現。本檔案庫收錄了《粵音資料集叢》大部份所引粵音典籍的數碼資料,希望這些資料對其他粵語研究者有所幫助。

「資料」主要指粵音典籍正文所收載的單字粵語讀音資料。至於其他文字內容,如前言、凡例等,如果是簡單文字資料,也會盡量收錄。

讀音資料格式

格式變更説明

本檔案庫資料格式在 2024 年 7 月做了一次較大規模的更新。此前,各書資料主要以 CSV(準確來説是 TSV)格式收錄,部份提供相同格式的 Google Sheet 線上版本,個別新錄入的書籍才會以 JSON 格式收錄。CSV 格式的優點是易於閱讀,缺點是無法很好地呈現結構複雜的資料,也不便於程式處理。此次將所有活躍資料改為以 JSON 格式優先發佈,也將更新流程自動化,以減低《粵音資料集叢》和本檔案庫的更新時間差。此後 CSV 和 Google Sheet 的資料將不會再作更新,本資料庫中的 CSV 格式檔案亦已移走。若使用者想取得以前的 CSV 格式檔案,可到 archive_20240709 分支查看舊版。

資料檔案概述

  • 為減少説明需要及增加易讀性,JSON 檔的欄目會使用中文。
  • 又為方便識別,不屬原書內容、由數碼化編者所加資料均會置於「_校訂補充」欄之下。
  • 資料檔主要是收錄原書的字、音關聯及字條所在。其餘資料(如部首、筆畫數、字碼)只會視情況收入。釋義、例句等資料也未必會全數收錄。詳情請參閱各書目錄內的説明文件。
  • 為方便處理,讀音標記(即又讀、俗讀之類)會進行 normalization 處理,未必忠於原文,如要確認請參考原書。下表是標記值與常見稱呼對照:
標記值 常見稱呼
standard 正讀
also 又讀, 或讀
literal 文讀, 讀音
verbal 白讀, 話音, 語音
common 習讀, 俗讀, 常讀
rare 罕讀
original 本讀
old 舊讀
ancient 古音, 古讀
suggested 建議讀音
mistaken 誤讀, 錯讀

回報問題

為人手輸入方便和減少出錯,這裏發表的資料檔都是經過電腦程式處理的版本。熟習 Github 的朋友,假如發現當中資料有錯漏需要修正,請建立一個新 issue 方便處理,不要修改後提交 pull request。

About

粵音資料集叢:典籍資料

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published