should we refactor for better performance #28

asimkt · 2022-12-12T06:38:39Z

Since Intl.Segmenter (link) is available for most of the users, I think it's better to mention what are the extra features [sentence-splitter](https://github.com/azu/sentence-splitter) is providing. And it will be better to tell to use one over another with some scenarios so that user can take an informed decision.

The text was updated successfully, but these errors were encountered:

azu · 2022-12-14T02:22:07Z

Intl.Segmenter is tokenizer, it split text into words(tokens).
So, it does not split text into sentences.

https://excalidraw.com/#json=PKbVfkc-JwDScvZHN8Ysu,jgqaHTMS03q6BsvQRYO1dg

danielweck · 2024-05-14T16:17:37Z

Intl.Segmenter is tokenizer, it split text into words(tokens).

This statement is correct ... but paints an incomplete picture :)

https://developer.mozilla.org/en-US/docs/Web/JavaScript/Reference/Global_Objects/Intl/Segmenter/Segmenter#granularity

Option granularity accepts value sentence (not just word).

const text = "吾輩は猫である。名前はたぬき。";
const japaneseWordSegmenter = new Intl.Segmenter("ja-JP", { granularity: "word" });
[...japaneseWordSegmenter.segment(text)].forEach((s)=>console.log(JSON.stringify(s, null, 4)));

==>

{
    "segment": "吾輩",
    "index": 0,
    "input": "吾輩は猫である。名前はたぬき。",
    "isWordLike": true
}
{
    "segment": "は",
    "index": 2,
    "input": "吾輩は猫である。名前はたぬき。",
    "isWordLike": true
}
{
    "segment": "猫",
    "index": 3,
    "input": "吾輩は猫である。名前はたぬき。",
    "isWordLike": true
}
{
    "segment": "で",
    "index": 4,
    "input": "吾輩は猫である。名前はたぬき。",
    "isWordLike": true
}
{
    "segment": "ある",
    "index": 5,
    "input": "吾輩は猫である。名前はたぬき。",
    "isWordLike": true
}
{
    "segment": "。",
    "index": 7,
    "input": "吾輩は猫である。名前はたぬき。",
    "isWordLike": false
}
{
    "segment": "名前",
    "index": 8,
    "input": "吾輩は猫である。名前はたぬき。",
    "isWordLike": true
}
{
    "segment": "は",
    "index": 10,
    "input": "吾輩は猫である。名前はたぬき。",
    "isWordLike": true
}
{
    "segment": "たぬき",
    "index": 11,
    "input": "吾輩は猫である。名前はたぬき。",
    "isWordLike": true
}
{
    "segment": "。",
    "index": 14,
    "input": "吾輩は猫である。名前はたぬき。",
    "isWordLike": false
}

const text = "吾輩は猫である。名前はたぬき。";
const japaneseSentenceSegmenter = new Intl.Segmenter("ja-JP", { granularity: "sentence" });
[...japaneseSentenceSegmenter.segment(text)].forEach((s)=>console.log(JSON.stringify(s, null, 4)));

==>

{
    "segment": "吾輩は猫である。",
    "index": 0,
    "input": "吾輩は猫である。名前はたぬき。"
}
{
    "segment": "名前はたぬき。",
    "index": 8,
    "input": "吾輩は猫である。名前はたぬき。"
}

azu added the Type: Documentation Documentation only changes label Dec 14, 2022

danielweck mentioned this issue May 14, 2024

TTS sentence splitter, migrate to native web API Intl.Segmenter edrlab/thorium-reader#2185

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

should we refactor for better performance #28

should we refactor for better performance #28

asimkt commented Dec 12, 2022

azu commented Dec 14, 2022 •

edited

danielweck commented May 14, 2024

should we refactor for better performance #28

should we refactor for better performance #28

Comments

asimkt commented Dec 12, 2022

azu commented Dec 14, 2022 • edited

danielweck commented May 14, 2024

azu commented Dec 14, 2022 •

edited