c语言的词法分析器

编程实现一个C语言子集的词法分析器,要求至少包含以下功能:
(1) 实现标识符的识别
(2) 实现无符号整数的识别
(3) 实现关键字的识别
(4) 实现算术运算符的识别
(5) 实现关系运算符的识别
(6) 实现分隔符的识别
(7) 实现非法字符的报错
(8) 构造一个保留字表reslist,并将一部分关键字存入其中
(9) 构造一个标识符表idlist,表中至少包含标识符名、标识符类型等字段信息
(10) 构造一个无符号整数表uintlist,表中至少包含数值、数据类型等字段信息
(11) 词法分析器从input文件中读入一小段C语言源程序,以二元式的形式按顺序输出其所有单词。输出结果在显示器上显示,同时存入output文件中。C语言源程序中所有的标识符都要添加到标识符表idlist中,所有的无符号整数都要添加到常数表uintlist的中。
(12) 程序的输出文件至少包括: output, idlist, uintlist, 其中output文件中的单词必须以二元式的形式存储。
求大神私信我~~~

任务1:识别小型语言所有单词的词法分析程序设计
源程序设计语言
G[<程序>]
<程序>→<变量说明><BEGIN>
<语句表>
<END>.
<变量说明>→VAR<变量表>:<类型>;|<空>
<变量表>→<变量表>,<变量>|<变量>
<类型>→INTEGER
<语句表>→<语句>
|
<语句>;<语句表>
<语句>→<赋值语句>|<条件语句>|<WHILE语句>|<复合语句>
<赋值语句>→<变量>:=<算术表达式>
<条件语句>→IF<关系表达式>THEN<语句>ELSE<语句>
<WHILE语句>→WHILE<关系表达式>DO<语句>
<复合语句>→BEGIN<语句表>END
<算术表达式>→<项>|<算术表达式>+<项>|<算术表达式>-<项>
<项>→<因式>|<项>*<因式>|<项>/<因式>
<因式>→<变量>|<整数>|(<算术表达式>)
<关系表达式>→<算术表达式><关系符><算术表达式>
<变量>→<标识符>
<标识符>→<标识符><字母>|<标识符><数字>|<字母>
<整数>→0|<非零数字><泛整数>
<泛整数>→<数字>|<数字><泛整数>|ε
<关系符>→<|<=|==|>|>=|<>
<字母>
→A|B|C|D|E|F|G|H|I|J|K|L|M|N|O|P|Q|R|S|T|U|V|W|X|Y|Z
<非零数字>→1|2|3|4|5|6|7|8|9
<数字>→<非零数字>|0
<空>→
要求和提示:
词法分析阶段,可以打开任意位置和名称的源文件进行词法分析,可以进行非法字符和数字后边跟字母的错误判断,如果没有错误则提示“词法分析正确完成!”,并且可以选择输出token.txt(token文件)string.txt(符号表)两个文件;
1.词法分析程序的主要任务如下:

组织源程序的输入,识别出源程序中的各个基本语法单位(也称为单词或语法符号),按规则转换成二元式的形式;

删除无用的空白字符、回车符、及其它非实质性符号;

删除注解行;

为后面的语法和语义分析提供二元式链表;
单词
编码
单词
编码
标识符
1
<
15
正整数
2
<=
16
BEGIN
3
>
17
END
4
>=
18
IF
5
<>
19
THEN
6
==
20
ELSE
7

21
WHILE
8

22
DO
9
:=
23
INTEGER
10

24
+
11
(
25
-
12

26
*
13
/
14
1)
对标识符的长度控制在8个字符(包括8个)以内,超过的做截断处理;
2)
数字不大于65535,否则报错;
3)
能跳过源程序中的空白格:两个单词之间的任何空格,制表符,回车,换行都是白空格,除了用来分隔单词以外,没有意义;
4)
能跳过注释:
a)
接连出现的/*到下一次接连出现的*/之间的任何文字都是注释(多行);
b)
从某行接连出现的//到该行的结尾的任何文字都是注释(单行)。
3.怎样编写词法分析程序:
1)
预处理:把源文件一个字符一个字符的读入词法分析程序设置的输入字符结构体数组中(输入缓冲区),读入过程要删除注释,删除多余的白空格;
2)
从源程序字符数组中获得单词,
编码为二元式.:
二元式采用结构体数组存储,
把单词类型和词元记录下来。
分解单词的方法:
1)
Case多路转换语句根据单词的特点直接编写;
2)
通过描述单词的正规文法得到相应的有穷自动机,通过case多路转换语句完成有穷自动机的处理流程。
3.编写词法分析程序要注意的问题:
1)
检查词法是否有错误
检查是否有非法字符:如
@,
&,
!
检查标志符和数字是否满足限制条件
检查注释符号是否配对
2)
符分隔单词
能够区分两个单词的符号为界符
有些界符不是单词:如白空格
有些界符仅仅用来分隔:如;
有些界符本身还是源程序不可缺少的单词,如(,
),
+,
/,
等等
有些界符包含两个字符:如<>,
>=等等
3)
输出词法错误
如果有错误,需要报告词法错误的原因。并且要能够越过错误,分解下一个单词,直到源程序结束。
4)
输出的二元式流保存在二元式结构体数组中。
温馨提示:答案为网友推荐,仅供参考
第1个回答  2015-06-03
这个作业挺好的,我要不上班我就帮你做了。
我告诉你思路:
首先你分析c语言的语法结构,把每种句型归类,把不同符号分成大类,然后建立解析树,或者是表达式。
比如 VAR = unsigned int, sign int, int, long int, char, float, double ..............
VAR str = EXP
EXP = EXP op EXP | EXP op str | str op str | str op EXP
op = +, - , *, / , <<, >>, <, >...............
这样分析出来以后你就可以通过if和switch嵌套来解析c文件的代码了追问

唉唉。。主要底子太差了,上课没怎么听。。。大神帮帮忙啊,这周末之前都行。。

相似回答