一文搞懂Tokenization!

人工智能
Tokenization是NLP的基本任务,按照特定需求能把一段连续的文本序列切分为一个字符串序列,其中的元素称为token或词语。

语言模型是对文本进行推理,文本通常是字符串形式,但是模型的输入只能是数字,因此需要将文本转换成数字形式。

Tokenization是NLP的基本任务,按照特定需求能把一段连续的文本序列(如句子、段落等)切分为一个字符串序列(如单词、短语、字符、标点等多个单元),其中的元素称为token或词语。

具体流程如下图所示,首先将文本句子切分成一个个单元,然后将子单元数值化(映射为向量),再将这些向量输入到模型进行编码,最后输出到下游任务进一步得到最终的结果。

文本切分

按照文本切分的粒度可以将Tokenization分为词粒度Tokenization、字符粒度Tokenization、subword粒度Tokenization三类。

1.词粒度Tokenization

词粒度Tokenization是最直观的分词方式,即是指将文本按照词汇words进行切分。例如:

The quick brown fox jumps over the lazy dog.

词粒度Tokenized结果:

['The', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog', '.']

在这个例子中,文本被切分为一个个独立的单词,每个单词作为一个token,标点符号'.'也被视为独立的token。

如若是中文文本,则通常是按照词典收录的标准词汇或是通过分词算法识别出的短语、成语、专有名词等进行切分。例如:

我喜欢吃苹果。

词粒度Tokenized结果:

['我', '喜欢', '吃', '苹果', '。']

这段中文文本被切分成五个词语:“我”、“喜欢”、“吃”、“苹果”和句号“。”,每个词语作为一个token。

2.字符粒度Tokenization

字符粒度Tokenization将文本分割成最小的字符单元,即每个字符被视为一个单独的token。例如:

Hello, world!

字符粒度Tokenized结果:

['H', 'e', 'l', 'l', 'o', ',', ' ', 'w', 'o', 'r', 'l', 'd', '!']

字符粒度Tokenization在中文中是将文本按照每个独立的汉字进行切分。

我喜欢吃苹果。

字符粒度Tokenized结果:

['我', '喜', '欢', '吃', '苹', '果', '。']

3.subword粒度Tokenization

subword粒度Tokenization介于词粒度和字符粒度之间,它将文本分割成介于单词和字符之间的子词(subwords)作为token。常见的subword Tokenization方法包括Byte Pair Encoding (BPE)、WordPiece等。这些方法通过统计文本数据中的子串频率,自动生成一种分词词典,能够有效应对未登录词(OOV)问题,同时保持一定的语义完整性。

helloworld

假设经过BPE算法训练后,生成的子词词典包含以下条目:

h, e, l, o, w, r, d, hel, low, wor, orld

子词粒度Tokenized结果:

['hel', 'low', 'orld']

这里,“helloworld”被切分为三个子词“hel”,“low”,“orld”,这些都是词典中出现过的高频子串组合。这种切分方式既能处理未知词汇(如“helloworld”并非标准英语单词),又保留了一定的语义信息(子词组合起来能还原原始单词)。

在中文中,subword粒度Tokenization同样是将文本分割成介于汉字和词语之间的子词作为token。例如:

我喜欢吃苹果

假设经过BPE算法训练后,生成的子词词典包含以下条目:

我, 喜, 欢, 吃, 苹, 果, 我喜欢, 吃苹果

子词粒度Tokenized结果:

['我', '喜欢', '吃', '苹果']

在这个例子中,“我喜欢吃苹果”被切分为四个子词“我”、“喜欢”、“吃”和“苹果”,这些子词均在词典中出现。虽然没有像英文子词那样将汉字进一步组合,但子词Tokenization方法在生成词典时已经考虑了高频词汇组合,如“我喜欢”和“吃苹果”。这种切分方式在处理未知词汇的同时,也保持了词语级别的语义信息。

索引化

假设已有创建好的语料库或词汇表如下。

vocabulary = {
    '我': 0,
    '喜欢': 1,
    '吃': 2,
    '苹果': 3,
    '。': 4
}

则可以查找序列中每个token在词汇表中的索引。

indexed_tokens = [vocabulary[token] for token in token_sequence]
print(indexed_tokens)

输出:[0, 1, 2, 3, 4]。

责任编辑:赵宁宁 来源: 小喵学AI
相关推荐

2022-03-24 08:51:48

Redis互联网NoSQL

2021-03-04 00:09:31

MySQL体系架构

2023-03-06 21:29:41

mmap技术操作系统

2023-05-22 13:27:17

2022-07-15 08:16:56

Stream函数式编程

2020-12-07 06:19:50

监控前端用户

2020-09-03 06:35:44

Linux权限文件

2023-09-02 21:27:09

2021-02-28 20:53:37

Cookie存储浏览器

2021-07-08 10:08:03

DvaJS前端Dva

2020-12-21 07:54:46

CountDownLa用法源码

2023-11-21 08:37:09

2019-11-06 17:30:57

cookiesessionWeb

2023-12-15 15:55:24

Linux线程同步

2022-03-28 19:19:45

Linux时间子系统

2023-11-08 18:35:29

得物前端监控

2023-07-04 08:56:07

指针类型Golang

2020-05-15 16:37:13

PowerBI数据分析

2022-04-12 09:05:30

Linux时钟

2023-09-13 22:39:23

Minikube开源
点赞
收藏

51CTO技术栈公众号