Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[dict]对话串中多处英文权重过高 #524

Closed
goldenapple1 opened this issue Oct 18, 2023 · 31 comments
Closed

[dict]对话串中多处英文权重过高 #524

goldenapple1 opened this issue Oct 18, 2023 · 31 comments

Comments

@goldenapple1
Copy link

image
如图

@choijck
Copy link

choijck commented Oct 19, 2023

rime_ice.schema.yaml

# 详细介绍 https://dvel.me/posts/make-rime-en-better/#短单词置顶的问题
# 正常情况: 输入 rug 得到 「1.rug 2.如果 …… 」
# 降低之后: 输入 rug 得到 「1.如果 2.rug …… 」
reduce_english_filter:
  # 降低到第 idx 个位置
  idx: 2
  # 要降低的单词,匹配的是输入码,即全小写。
  words: [rug, bus, ship, laos, bail, bam, bans, bib, bos, chic, chit, dab, dag,
  dal, dit, dub, dug, fab, gam, ger, gus, hem, hep, hud, kat, lam, lax, lex, lug,
  lux, moc, mos, mot, mum, nad, nay, nib, nip, pak, pap, pax, rig, rum, sac, sal,
  sax, sec, shin, sis, ska, slang, sus, tad, taj, tac, tic, yep, yum, fax, cain,
  key, mob, buy, dam, wap, yes, but, put, lag, buf, lip, aid, aim, dig, dim, din,
  dip, pail, cad, chap, bend, lid, gem, tin, tum,sum]

在这里加 单词,就会去第二个候选

@goldenapple1
Copy link
Author

其实我知道但是懒得改了再pull request,顺便我在打完刚刚那句话的时候还发现gail对应Gail而不是改了或者概率
image

@goldenapple1
Copy link
Author

而且要改的不止这一个,实际上是所有的方案里对应的这个都要改,但是包装成custom又会覆盖用户为了保证更新没有冲突自己加的custom,情况就是这么蛋疼

@choijck
Copy link

choijck commented Oct 19, 2023

去掉英文输入吧😂

@goldenapple1
Copy link
Author

这是一种解但不是最好的解,毕竟仍然有人有英文输入的需求,比如goo对应good、Google这个就挺实用。
顺便我刚刚又发现your对应英文your而不是有人
image
我觉得要不把这个列表直接放到lua脚本里写死得了,放在方案里用户自己改也麻烦,改版本库里的也要改好几遍

@goldenapple1 goldenapple1 changed the title [dicts]sum期望宿命或者素描 [dict]对话串中多处英文权重过高 Oct 19, 2023
@choijck

This comment was marked as off-topic.

@goldenapple1
Copy link
Author

如果你说的是邮箱这个中文词,我这边没有异常,而且也是改过皮肤,如果你说的是邮箱地址无法输入,就我刚刚的测试下@并没有上屏但是会下划线,这是因为我把inline_preedit设置成true了,感觉符合预期。

image

很不错,终于有一次回复你的时候没有发现新的英文权重问题。

@goldenapple1
Copy link
Author

再加个hex应该对应核心或者和谐
image

@choijck

This comment was marked as off-topic.

@goldenapple1

This comment was marked as off-topic.

@iDvel
Copy link
Owner

iDvel commented Oct 19, 2023

不写死在 Lua 里是方便打补丁,补丁里你可以自定义或继承追加:

patch:
  # 自定义:
  reduce_english_filter/words: [my, words]
  # 追加:
  reduce_english_filter/words/+: [my, words]
  # 清零:
  reduce_english_filter/words: []

@goldenapple1
Copy link
Author

我发问题出来更多是希望所有之后使用这个方案的人都不再遇到同样的问题,我自己倒是能理解这些配置,感谢回复

@goldenapple1
Copy link
Author

补一个,as期望按时,实际as
image

@goldenapple1
Copy link
Author

image
bug期望“不过”

@goldenapple1
Copy link
Author

ged期望“格斗”
image

@goldenapple1
Copy link
Author

paid期望“派对”或者“排队”
image

@goldenapple1
Copy link
Author

image
yen期望“也能”
其实我觉得可以考虑正则识别然后加白名单,黑名单可能多一些

@goldenapple1
Copy link
Author

set期望“涩图”
image

@tamhaywoo
Copy link

我支持原方案的设计,不用做修改。

@avalonzz
Copy link

avalonzz commented Oct 21, 2023

其实我知道但是懒得改了再pull request,顺便我在打完刚刚那句话的时候还发现gail对应Gail而不是改了或者概率 image

如果英文使用频率不高,除了雾凇定期的filter,可以尝试用常用英文(大概2-3k)替换掉en.dict.yaml的英文列表。
另外,一些高频单词,可以从英文列表里删除,只保留≥5个字母的单词,体验会好一些。

@goldenapple1
Copy link
Author

如果英文使用频率不高,除了雾凇定期的filter,可以尝试用常用英文(大概2-3k)替换掉en.dict.yaml的英文列表。
另外,一些高频单词,可以从英文列表里删除,只保留≥5个字母的单词,体验会好一些。

改词库这个我还在犹豫,我可能确实更适合你说的这种方案

@Plainct
Copy link

Plainct commented Oct 21, 2023

英文词典的权重感觉确实有问题,开启的话,打到某些词的时候会有点不顺,但完全停用的话也是不怎么方便

有些词的权重让人捉摸不透。比如输入'nas’('那是')会蹦出[Network Attached Storage](自定义词组里没有这个词)。
在 reduce_english_filter 里加入[nas]也只能让[nas]这个词后移
尝试重复输入"那是“也改变不了权重,要改变只能从英文词典里找出来删掉这个词

@mirtlecn
Copy link
Collaborator

输入'nas’…… 蹦出[Network Attached Storage], 在 reduce_english_filter 里加入[nas]也只能让[nas]这个词后移 尝试重复输入"那是“也改变不了权重,要改变只能从英文词典里找出来删掉这个词

这是个脚本 bug。那个 lua 只降低了完全匹配候选的排行,没有考虑到这种情境。可以新开个 issue

@iDvel
Copy link
Owner

iDvel commented Oct 21, 2023

比如输入'nas’('那是')会蹦出[Network Attached Storage]

少了个空格判断。

@goldenapple1
Copy link
Author

再加个hans,期望是函数
image

@goldenapple1
Copy link
Author

image
期望设定

@goldenapple1
Copy link
Author

dad期望打断、达到
image
red期望热度、热点
image
tit期望体贴
image
tim期望题目、题名
image

。。。谢谢,已经开始考虑要不要把英文禁了得了

@iDvel
Copy link
Owner

iDvel commented Oct 22, 2023

不用谢,禁了吧,再见。

@iDvel iDvel closed this as not planned Won't fix, can't repro, duplicate, stale Oct 22, 2023
@Twilight-9
Copy link

Mac权重过低
image

@tamhaywoo
Copy link

tamhaywoo commented Nov 2, 2023

我认为是你其他词库的权重写得过高,我使用原版配置输入Mac 的时候,首选项就是Mac
补充下:我是拼音输入,不是双拼

@iDvel
Copy link
Owner

iDvel commented Nov 2, 2023

双拼开启简拼 abbrev/^(.).+$/$1/,Mac 在第一位;
双拼关闭简拼 abbrev/^(.).+$/$1/,Mac 在 ma'c 等中文的后面。
不知道为啥。。。

sangjeedondrub added a commit to sangjeedondrub/rime-configuration that referenced this issue Nov 2, 2023
* github/main: (24 commits)
  dict: 完成同义多音字注音 close iDvel#353
  dict: 添加 "明不明显" (iDvel#529)
  feat: reduce_english_filter.lua 增加一键全降低
  fix: 完善所有双拼 i?ong 键位的正则
  dict: 日常更新
  fix: reduce_english_filter.lua 处理有空格的单词 iDvel#524
  conf: 双拼默认不启用简拼 iDvel#508
  dict: 日常更新 close iDvel#522
  feat: 英文方案增加 `#` jing 和 `+` jia 的派生
  dict: 日常更新 close iDvel#520
  fix: reduce_english_filter.lua 可识别含单引号的单词 close iDvel#519
  dict: 「皮妙」→「皮秒」 close iDvel#517
  dict: 日常更新 iDvel#457 close iDvel#516 添加一些英文缩写 close iDvel#512
  fix: en_spacer.lua 处理含单引号的单词 close iDvel#513
  conf: 双拼默认不启用简拼 iDvel#508
  fix: reduce_english_filter.lua 不处理非英文单词  fix iDvel#505
  dict: 日常更新; close iDvel#502
  feat: 完善九宫格
  dict: 日常更新; close iDvel#493
  feat: en_spacer.lua 英文词条上屏自动添加空格 (iDvel#496)
  ...
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

8 participants