spacy sentence tokenization error on Hebrew(希伯来语中的空格句子标记化错误)
本文介绍了希伯来语中的空格句子标记化错误的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
正在尝试对希伯来语使用拼写句子标记化。
import spacy
nlp = spacy.load('he')
doc = nlp(text)
sents = list(doc.sents)
我得到:
Warning: no model found for 'he'
Only loading the 'he' tokenizer.
Traceback (most recent call last):
...
sents = list(doc.sents)
File "spacy/tokens/doc.pyx", line 438, in __get__ (spacy/tokens/doc.cpp:9707)
raise ValueError( ValueError: Sentence boundary detection requires the dependency parse, which requires data to be installed. For more info, see the documentation: https://spacy.io/docs/usage
怎么办?
推荐答案
Spacy的Hebrew coverage目前非常小。它目前只有word希伯来语的标记化,大致在空格上拆分,有一些额外的规则和例外。您需要的句子词汇化/边界检测需要对句子进行更复杂的语法分析,以确定一个句子在哪里结束,另一个句子在哪里开始。这些模型需要大量带标签的训练数据,因此可用于比标记化(here的列表)更少的语言。
最初的消息是告诉您它可以执行标记化,这不需要模型,然后您得到的错误是由于没有模型来分句、执行NER或POS等。
您可以在this list中查找希伯来语NLP的其他资源。如果您找到了足够多的正确格式的标签数据,并且感觉雄心勃勃,您可以使用上述概述here训练您自己的希伯来语拼写模型。
这篇关于希伯来语中的空格句子标记化错误的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持编程学习网!
沃梦达教程
本文标题为:希伯来语中的空格句子标记化错误


基础教程推荐
猜你喜欢
- PermissionError: pip 从 8.1.1 升级到 8.1.2 2022-01-01
- 使用大型矩阵时禁止 Pycharm 输出中的自动换行符 2022-01-01
- 在同一图形上绘制Bokeh的烛台和音量条 2022-01-01
- Plotly:如何设置绘图图形的样式,使其不显示缺失日期的间隙? 2022-01-01
- PANDA VALUE_COUNTS包含GROUP BY之前的所有值 2022-01-01
- 无法导入 Pytorch [WinError 126] 找不到指定的模块 2022-01-01
- 包装空间模型 2022-01-01
- 修改列表中的数据帧不起作用 2022-01-01
- 在Python中从Azure BLOB存储中读取文件 2022-01-01
- 求两个直方图的卷积 2022-01-01