分词是自然语言处理 – NLP 中的重要一步。分词就是将句子、段落、文章这种长文本,分解为以字词为单位的数据结构,方便后续的处理分析工作。
参考内容:
HanLP
统计自然语言处理(第2版)
自然语言处理(NLP)的基础难点:分词算法