用Python词法分析Parser中tokenizer.h的实际应用

开发 后端
这里闲谈在Python词法分析的实现在Parser目录下的tokenizer.h和tokenizer.cpp。也包括介绍Python是用C语言实现的,其实现方式借鉴了很多面对对象的思想。

如果你在对Python词法分析的实际操作中,你对其有不解之处时,你就可以点击以下的文章对其进行了解,希望你对相关Python词法分析的实现在Parser目录下的tokenizer.h和tokenizer.cpp的内容有所了解。

在Python词法分析的实现在Parser目录下的tokenizer.h和tokenizer.cpp。Python的其他部分会直接调用tokenizer.h中定义的函数,如下:

 

  1. extern struct tok_state *PyTokenizer_FromString
    (const char *);   
  2. extern struct tok_state *PyTokenizer_FromFile
    (FILE *, char *, char *);   
  3. extern void PyTokenizer_Free(struct tok_state *);   
  4. extern int PyTokenizer_Get(struct tok_state *,
     char **, char **); 

这些函数均以PyTokenizer开头。这是Python源代码中的一个约定。虽然Python是用C语言实现的,其实现方式借鉴了很多面对对象的思想。拿词法分析来说,这四个函数均可以看作PyTokenizer的成员函数。头两个函数PyTokenizer_FromXXXX可以看作是构造函数,返回PyTokenizer的instance。

PyTokenizer对象内部状态,也就是成员变量,储存在tok_state之中。PyTokenizer_Free可以看作是析构函数,负责释放PyTokenizer,也就是tok_state所占用的内存。PyTokenizer_Get则是PyTokenizer的一个成员函数,负责取得在字符流中下一个Token。

Python词法分析中这两个函数均需要传入tok_state的指针,和C++中需要隐含传入this指针给成员函数的道理是一致的。可以看到,OO的思想其实是和语言无关的,即使是C这样的结构化的语言,也可以写出面对对象的程序。

  1. tok_state  

tok_state等价于PyTokenizer这个class本身的状态,也就是内部的私有成员的集合。部分定义如下:

  1. /* Tokenizer state */   
  2. struct tok_state {   
  3. /* Input state; buf <= cur <= inp <= end */   
  4. /* NB an entire line is held in the buffer */   
  5. char *buf; /* Input buffer, or NULL; malloc'ed if 
    fp != NULL */   
  6. char *cur; /* Next character in buffer */   
  7. char *inp; /* End of data in buffer */   
  8. char *end; /* End of input buffer if buf != NULL */   
  9. char *start; /* Start of current token if not NULL */   
  10. int done; /* E_OK normally, E_EOF at EOF, otherwise 
    error code   
  11. /* NB If done != E_OK, cur must be == inp!!! */   
  12. FILE *fp; /* Rest of input; NULL if tokenizing a 
    string */   
  13. int tabsize; /* Tab spacing */   
  14. int indent; /* Current indentation index */   
  15. int indstack[MAXINDENT]; /* Stack of indents */   
  16. int atbol; /* Nonzero if at begin of new line */   
  17. int pendin; /* Pending indents (if > 0) or dedents 
    (if 
    < 0) */   
  18. char *prompt, *nextprompt; /* For interactive 
    prompting */   
  19. int lineno; /* Current line number */   
  20. int level; /* () [] {} Parentheses nesting level */   
  21. /* Used to allow free continuations inside them */   
  22. }; 

最重要的是buf, cur, inp, end, start。这些field直接决定了缓冲区的内容:

buf是缓冲区的开始。假如PyTokenizer处于字符串模式,那么buf指向字符串本身,否则,指向文件读入的缓冲区。cur指向缓冲区中下一个字符。inp指向缓冲区中有效数据的结束位置。PyTokenizer是以行为单位进行处理的,每一行的内容存入从buf到inp之间,包括\n。一般情况下 ,PyTokenizer会直接从缓冲区中取下一个字符,一旦到达inp所指向的位置,就会准备取下一行。

当PyTokenizer处于不同模式下面,具体的行为会稍有不同。end是缓冲区的结束,在字符串模式下没有用到。start指向当前token的开始位置,如果现在还没有开始分析token,start为NULL。以上就是对在Python词法分析的实现在Parser目录下的tokenizer.h和tokenizer.cpp相关的内容的介绍,忘你会有所收获。

【编辑推荐】

  1. Python中文转换url编码的实际操作步骤介绍
  2. Python学习入门中的先搭环境的具体应用的方法介绍
  3. Python源码分析的实际相关操作步骤解析
  4. Python安装的步骤操作其实是件很容易的事
  5. 对Python源代码组织的相关实际操作步骤解析

 

责任编辑:佚名 来源: 博客园
相关推荐

2010-03-16 18:19:41

Python函数

2010-02-23 10:25:29

2010-03-19 15:16:11

Python代码

2010-03-01 10:45:59

WCF集合类

2009-12-10 14:56:10

动态路由技术

2010-03-17 10:01:12

Python安装

2010-03-24 18:39:21

Python unic

2010-03-22 19:11:55

Python连接

2010-03-09 19:07:01

Python语法

2010-03-19 17:15:43

2010-03-03 17:52:31

Python线程同步

2010-03-18 10:45:33

Python Djan

2010-03-16 16:47:25

Python数组

2009-11-23 17:56:45

业务路由器

2010-03-16 12:16:23

Python小程序

2010-03-16 09:20:25

Python时间

2010-04-01 09:22:31

Oracle9i分析函

2010-01-06 15:21:00

软交换技术

2021-08-28 10:06:29

VueJavascript应用

2009-11-03 11:03:00

CDN接入技术
点赞
收藏

51CTO技术栈公众号