Skip to content

fhopecc/zhongwen

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

給懂中文的程式設計師

中文數字模組

運用中文文字處理程式庫的程式設計師自然懂中文, 所以本程式庫設計哲學就是函數以中文命名且能簡明表達功能, 另以簡體名稱表示處理簡體中文情形,繁體名稱表示處理繁體中文情形, 如以中文數字處理功能為例:

from zhongwen.number import 中文數字, 中文数字, 大寫中文數字
中文數字(10600)
>>> '一萬零六百'
中文数字(10600)
>>> '一万零六百'
大寫中文數字(23232.00518)
>>> '貳萬參仟貳佰參拾貳點零零伍壹捌'

民國日期處理

民國日期係目前仍在臺灣地區使用之日期格式, 本模組之【取日期】函數可將民國日期字串轉成日期時間(datetime)類型, 而【民國日期】可將日期時間依指定格式轉成字串,示例如次:

from zhongwen.date import 取日期
取日期('111.9.23')
>>> datetime(2022,9,23,0,0)
取日期('110/12/27')
>>> datetime(2021,12,27,0,0)

from zhongwen.date import 民國日期
民國日期(datetime(2021,12,27,0,0), '%Y年%M月%d日')
>>> '110年12月27日'

中文字元判斷

中文字元判斷功能示例如次:

是否為中文字元('繁')
>>> True
是否為中文字元('简')
>>> True
是否為中文字元('a')
>>> False

校正異體字

中文有字型一樣,編碼卻不一樣的字,稱為異體字, 如【車】編碼為\u8eca(正式字集), 而【車】編碼為\uf902(中日韓相容表意文字區),在某些字型下兩者看來亳無差異。 校正異體字可將異體字轉為正體字,即輸入法優先輸出的編碼。 中日韓相容表意文字區[\uF900-\uFAFF]的文字是指中日韓越統一表意文字中因為字源分離原則未與正式字集(包括擴展 A、B、C、D 區)中的字形統一的字。 簡單來說,這區的文字不要用,因為許多「第三方字型」都沒有實作這個區域的文字。

校正異體字示例:

校正異體字('汽車')
>>> '汽車'

About

中文數字及文字處理

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages