能否实现更细粒度的分词 #7

suziwen · 2020-03-15T01:17:09Z

比如 操作系统也越来越流行了, 现在这个版本把 操作系统 当成一个完整的词来处理, 我想把 操作系统 再细分出 操作 和 系统 这两个词, 最后生成的结果就是 操作系统,操作,系统 这三个词. 类似于 nodejieba 里的 cutAll / cutForSearch 方法

> jieba.cut('操作系统也越来越流行了')
[ '操作系统', '也', '越来越', '流行', '了' ]
> jieba.cutAll('操作系统也越来越流行了')
[ '操作', '操作系统', '系统', '也', '越来', '越来越', '流行', '了' ]
> jieba.cutForSearch('操作系统也越来越流行了')
[ '操作', '操作系统', '系统', '也', '越来', '越来越', '流行', '了' ]

The text was updated successfully, but these errors were encountered:

linonetwo · 2020-03-15T13:10:26Z

应该可以通过写一个 Tokenizer 中间件来实现，在 tokenizer 里你可以拿到 CRF 信息（参考别的 Tokenizer ），然后你可以比其他 Tokenizer 在返回的列表里多返回一个 '操作', '系统'，如果你发现有一定概率可以进一步细分这个词的话。

linonetwo · 2020-03-15T13:20:35Z

你可以看到这个 f 就是概率

segmentit/src/Segment.js

Line 85 in df71b9d

const f = Number(blocks[2]);

suziwen · 2020-03-15T13:56:33Z

好的

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

能否实现更细粒度的分词 #7

能否实现更细粒度的分词 #7

suziwen commented Mar 15, 2020 •

edited

linonetwo commented Mar 15, 2020

linonetwo commented Mar 15, 2020

suziwen commented Mar 15, 2020

能否实现更细粒度的分词 #7

能否实现更细粒度的分词 #7

Comments

suziwen commented Mar 15, 2020 • edited

linonetwo commented Mar 15, 2020

linonetwo commented Mar 15, 2020

suziwen commented Mar 15, 2020

suziwen commented Mar 15, 2020 •

edited