-
Notifications
You must be signed in to change notification settings - Fork 9
ADR
Yuki Okuda edited this page Jul 29, 2021
·
2 revisions
- 入力された文字列を扱う際にUnicode正規化されている状態だと、全角/半角などの細かな文字の差を気にしなくても良いので、前処理で適用したい
- 具体的には
unicodedata.normalize(NFKC)
- 具体的には
- Unicode正規化はしない
- なぜなら文字列長が変わる可能性があり、文字列の一部をタグ付けするという文字インデックスを扱う処理が複雑になるため
- 例) 「㌦」「㍿」といった組み文字
- 正規表現パターンを記載する際には、正規化されていない文字列を前提とする
### Context
What is the issue that we're seeing that is motivating this decision or change?
### Decision
What is the change that we're proposing and/or doing?
### Consequences
What becomes easier or more difficult to do because of this change?