5일만에 뚝딱 스크립트 언어 만들기 PGLight (2/5)

프로그래밍/PG어

by ∫2tdt=t²+c 2013. 6. 15. 20:19

저번에 PGLight언어 문법를 BNF스타일로 정리했습니다. 이제 파싱하는 코드를 짤 차례인데요, 실은 저번에 제대로 정리하지 않고 넘어간게 있었습니다.

원래 BNF로 문법을 정리할때 말단 노드들이 어떻게 정의되는지도 명확히 해놔야 파싱 코드 작성할 때 용이합니다만, 그런거 없다! 하고 넘어왔었죠.

저번 BNF 표기법에서 어물쩍 넘어간

<identifier>와 <simple_literal>이 어떤 놈인지를 명확하게 하고 갑시다.

<identifier>는 말그대로 식별자가 될만한 놈들인데, 대게의 언어에서는 특수기호가 아닌 문자열로 구성됩니다. 정규표현식으로 쓰자면 [A-Za-z][A-Za-z0-9]* 요런식으로 되겠습니다. 근데 PGLight는 소스에서부터 유니코드를 지원하기로 했기때문에, 식별자에도 특수문자를 제외한 모든 유니코드문자를 허용하기로 했는데... 음 정규표현식으로 쓰기엔 귀찮으니 생략하도록 할게요ㅋ

<simple_literal>은 문장 내에서 쓰이는 단순한 상수값들입니다. 정수인경우에는 0 | [1-9][0-9]* 가 될것이고, 문자열일 경우는 "" 따옴표로 둘러쌓인 덩어리, boolean 값일 경우는 true | false가 될겁니다. 이중 파싱하기 까다로운건 문자열인데요, 따옴표 내에 \로 이스케이프 된 경우까지 따져야하기 때문이죠. 그래서 정규표현식으로 쓰기에는 조금 까다로운 면이 있으니 생략할게요.

자, 첫번째 단계는 줄줄이 이어져있는 소스 코드를 최소 의미 단위인 토큰(token)으로 쪼개는 것입니다. 이를 Tokenize라고 합니다. 일단 언어에 어떤 토큰들이 있나를 정의할 필요가 있습니다.

딱 보면 뭐하는 토큰인지 알기 쉽게 나름대로 이름을 지었습니다. 토큰 타입을 알려주는 enum 뿐만 아니라 각각의 토큰을 담는 토큰 구조체가 필요하겠죠. 보통 토큰을 담을때는 토큰의 종류와 문자열, 이 두 가지만 담으면 충분하다고 생각할 수 있는데, 요러면 나중에 에러 코드 뿜어내는 부분을 작성할때 힘든 부분이 많습니다. 그래서 토큰이 위치한 줄번호까지도 함께 토큰 구조체에 담아두고, 나중에 구문 오류가 발생했을때 줄번호를 표시할수 있게 해줍니다.

123 4*2

는 123, , 4, *, 2

abc de

는 abc, , de

로 분리되어야합니다.

띄어쓰기는 싹다 무시하고, * 와 같은 연산자 앞에서는 무조건 토큰을 끊어줘야하지요. 자 먼저 무조건 토큰을 끊어줘야하는 문자들을 구분해내볼까요

이스케이프에서 사용되는 \xAA 같은 표현을 해석할때 위 두 함수는 매우 유용합니다.

다음은 문자열에서 \로 시작하는 이스케이프 문자열을 해석해주는 함수입니다.

이제 진짜로 tokenizer를 짜봅시다. 좀 길고 코드가 더러운데 그냥 봐주세요 ㅠㅠ (너무 지저분해서 다시 건드리기조차 무섭네요)

//문자열을 입력받아서 Token의 vector로 반환해줍니다.
vector<Token> Tokenize(const string& str)
{
	vector<Token> ret;

auto it = str.begin();
	auto marker = str.begin();

/* 토큰화하고 있는 작업의 단계입니다. 무슨 타입의 토큰을 작업하는지를 담고 있어요.
처음에는 TokenType::none 스테이지에서 시작합니다.*/
	TokenType stage = TokenType::none;
// 줄번호입니다.
	int line = 1;
// 임시 문자열을 저장하는 놈
	string s;

// it가 끝에 다다를때까지 반복해요.
	for(;it != str.end();++it)
	{
		switch(stage)
		{
// none스테이지일 경우입니다.
		case TokenType::none:
			switch(*it)
			{
// 줄바꿈 문자열일 경우는 line을 늘려주고 패스
			case '\n':
				  line;
// 나머지는 쿨하게 씹어요. 다 공백들이니깐
			case ' ':
			case '\t':
			case '\r':
				break;
// 따옴표인 경우는 스테이지를 string으로 설정하고 s를 비워둬요.
			case '\"':
				stage = TokenType::string;
				s.clear();
				break;
// 숫자인 경우는 스테이지를 integer로 설정하고 marker를 현재 지점에 찍어놓습니다.
			case '0':
			case '1':
			case '2':
			case '3':
			case '4':
			case '5':
			case '6':
			case '7':
			case '8':
			case '9':
				stage = TokenType::integer;
				marker = it;
				break;
// < 인겨우는 < 인지 <=인지 알아보기 위해 다음 문자를 쓱 살펴봐요
			case '<':
				if(it   1 != str.end() && it[1] == '=')
				{
					ret.push_back(Token("<=", TokenType::lessequal, line));
					  it;
				}
				else
				{
					ret.push_back(Token("<", TokenType::less, line));
				}
				break;
// >도 마찬가지입니다.
			case '>':
				if(it   1 != str.end() && it[1] == '=')
				{
					ret.push_back(Token(">=", TokenType::greaterequal, line));
					  it;
				}
				else
				{
					ret.push_back(Token(">", TokenType::greater, line));
				}					
				break;
			case '[':
				ret.push_back(Token("[", TokenType::lsbracket, line));
				break;
			case ']':
				ret.push_back(Token("]", TokenType::rsbracket, line));
				break;
// !인 경우는 != 일때만 쓰여요.
			case '!':
				if(it   1 != str.end() && it[1] == '=')
				{
					ret.push_back(Token("!=", TokenType::notequal, line));
					  it;
				}
// 뒷 문자가 =가 아니면 무조건 에러입니다.
				else
				{
					ret.push_back(Token("!", TokenType::error, line));
				}
				break;
// =이면 ==이거나 =이거나 둘중 하나입니다.
			case '=':
				if(it   1 != str.end() && it[1] == '=')
				{
					ret.push_back(Token("==", TokenType::equal, line));
					  it;
				}
				else
				{
					ret.push_back(Token("=", TokenType::assign, line));
				}
				break;
			case '+':
				ret.push_back(Token(string(it, it + 1), TokenType::plus, line));
				break;
			case '-':
				ret.push_back(Token(string(it, it + 1), TokenType::minus, line));
				break;
			case '*':
				ret.push_back(Token(string(it, it + 1), TokenType::asterisk, line));
				break;
// / 일겨우는 // 나, /* 아니면 그냥 / 입니다.
			case '/':
				if(it + 1 != str.end() && it[1] == '/')
				{
// 한줄 주석인 경우는 스테이지를 comment1로
					stage = TokenType::comment1;
					  it;
				}
				else if(it + 1 != str.end() && it[1] == '*')
				{
// 블록 주석인 경우는 스테이지를 comment2로
					stage = TokenType::comment2;
					  it;
				}
				else
				{
// 나머지는 일반 나눗셈
					ret.push_back(Token(string(it, it + 1), TokenType::divide, line));
				}
				break;
			case '%':
				ret.push_back(Token(string(it, it + 1), TokenType::percent, line));
				break;
			case '^':
				ret.push_back(Token(string(it, it + 1), TokenType::hat, line));
				break;
			case '?':
				ret.push_back(Token(string(it, it + 1), TokenType::question, line));
				break;
			case '.':
				ret.push_back(Token(string(it, it + 1), TokenType::dot, line));
				break;
			case ':':
				ret.push_back(Token(string(it, it + 1), TokenType::colon, line));
				break;
			case ';':
				ret.push_back(Token(string(it, it + 1), TokenType::semicolon, line));
				break;
			case ',':
				ret.push_back(Token(string(it, it + 1), TokenType::comma, line));
				break;
			case '{':
				ret.push_back(Token(string(it, it + 1), TokenType::lbracket, line));
				break;
			case '}':
				ret.push_back(Token(string(it, it + 1), TokenType::rbracket, line));
				break;
			case '(':
				ret.push_back(Token(string(it, it + 1), TokenType::lparen, line));
				break;
			case ')':
				ret.push_back(Token(string(it, it + 1), TokenType::rparen, line));
				break;
			case '|':
				ret.push_back(Token(string(it, it + 1), TokenType::bar, line));
				break;
// 나머지인 경우는 다 식별자로 취급합니다. marker를 시작지점에 찍어놓습니다
			default:
				stage = TokenType::identifier;
				marker = it;
				break;
			}
			break;
// 스테이지가 string일 경우 ("로 시작하는 경우죠)
		case TokenType::string:
			for(;*it != '\"'; ++it)
			{
// 닫는 따옴표가 안 나왔는데, 끝에 도달하거나 줄바꿈을 당했으면 어딘가 잘못된거죠
				if(it == str.end() || *it == '\n' || *it == '\r')
				{
					stage = TokenType::none;
					ret.push_back(Token(s, TokenType::error, line));
					break;
				}
// 이스케이프 문자입니다. 앞에서 선언한 DecodeEscape함수를 호출해요
				else if(*it == '\\')
				{
					bool err;
					s.push_back(DecodeEscape(it, str.end(), err));
					if(err)
					{
						stage = TokenType::none;
						ret.push_back(Token(s, TokenType::error, line));
						break;
					}
					--it;
				}
// 나머지인 경우는 그냥 s에 차곡차곡 쌓아넣습니다.
				else
				{
					s.push_back(*it);
				}
			}
// 성공적으로 닫는 따옴표를 마치고 나왔습니다.
// 스테이지를 다시 기본으로 돌리고, 현재 문자열을 토큰으로 넣습니다
			stage = TokenType::none;
			ret.push_back(Token(s, TokenType::string, line));
			break;
// 스테이지가 integer인 경우 (숫자로 시작한 경우죠)
		case TokenType::integer:
// 마침표를 만나면 이건 실수인겁니다. 스테이지 전향
			if(*it == '.')
			{
				stage = TokenType::real;
			}
// 토큰을 자르는 문자를 만났으면 여기까지만 숫자인걸로 봐야합니다
// 스테이지를 기본으로 돌리고, 이 문자 전까지를 토큰에 넣어요
			else if(IsCutCharacter(*it))
			{
				stage = TokenType::none;
				ret.push_back(Token(string(marker, it--), TokenType::integer, line));
			}
// 숫자가 아닌 놈이 뒤에 붙어있으면 에러입니다.
			else if(!isdigit(*it))
			{
				stage = TokenType::none;
				ret.push_back(Token(string(marker, it), TokenType::error, line));
				--it;
			}
			break;
// 스테이지가 실수인 경우 (숫자로 시작해서 .을 만난 경우죠)
		case TokenType::real:
			if(IsCutCharacter(*it))
			{
				stage = TokenType::none;
				ret.push_back(Token(string(marker, it--), TokenType::real, line));
			}
			else if(!isdigit(*it))
			{
				stage = TokenType::none;
				ret.push_back(Token(string(marker, it), TokenType::error, line));
				--it;
			}
			break;
// 스테이지가 식별자인 경우 (특수 문자가 아닌 기타 일반적인 문자로 시작한경우)
		case TokenType::identifier:
// 토큰을 자르는 문자를 만났으면, 여기까지 문자열을 뚝 잘라서 키워드와 비교해봅니다
			if(IsCutCharacter(*it))
			{
				stage = TokenType::none;
				string s(marker, it--);
				if(s == "and")
					ret.push_back(Token(s, TokenType::_and, line));
				else if(s == "or")
					ret.push_back(Token(s, TokenType::_or, line));
				else if(s == "not")
					ret.push_back(Token(s, TokenType::_not, line));
				else if(s == "function")
					ret.push_back(Token(s, TokenType::_function, line));
				else if(s == "var")
					ret.push_back(Token(s, TokenType::_var, line));
				else if(s == "as")
					ret.push_back(Token(s, TokenType::_as, line));
				else if(s == "if")
					ret.push_back(Token(s, TokenType::_if, line));
				else if(s == "else")
					ret.push_back(Token(s, TokenType::_else, line));
				else if(s == "for")
					ret.push_back(Token(s, TokenType::_for, line));
				else if(s == "while")
					ret.push_back(Token(s, TokenType::_while, line));
				else if(s == "do")
					ret.push_back(Token(s, TokenType::_do, line));
				else if(s == "true")
					ret.push_back(Token(s, TokenType::_true, line));
				else if(s == "false")
					ret.push_back(Token(s, TokenType::_false, line));
				else if(s == "null")
					ret.push_back(Token(s, TokenType::_null, line));
				else if(s == "return")
					ret.push_back(Token(s, TokenType::_return, line));
				else if(s == "break")
					ret.push_back(Token(s, TokenType::_break, line));
				else if(s == "continue")
					ret.push_back(Token(s, TokenType::_continue, line));
				else if(s == "done")
					ret.push_back(Token(s, TokenType::_done, line));
				else if(s == "in")
					ret.push_back(Token(s, TokenType::_in, line));
				else if(s == "yield")
					ret.push_back(Token(s, TokenType::_yield, line));
				else if(s == "this")
					ret.push_back(Token(s, TokenType::_this, line));
// 아무 키워드에 해당안되면 그냥 일반 식별자인거에요
				else
					ret.push_back(Token(s, TokenType::identifier, line));
			}
			break;
// 스테이지가 한 줄 주석인 경우
		case TokenType::comment1:
// 줄바꿈을 만날때까지 싹다 무시합니다
			if(*it == '\n')
			{
				++line;
				stage = TokenType::none;
			}
			break;
// 스테이지가 블록 주석인 경우
		case TokenType::comment2:
			switch(*it)
			{
// 줄바꿈을 만나면 line 증가시키는거 까먹으면 안되구요
			case '\n':
				++line;
				break;
// * 뒤에 /가 오는 경우에 블록 주석이 끝납니다
			case '*':
				if(it   1 != str.end() && it[1] == '/')
				{
					++it;
					stage = TokenType::none;
				}
				break;
			}
			break;
		}
	}
// 다 돌고 난 뒤에 제일 마지막에 eof를 넣어줘요.
	ret.push_back(Token("", TokenType::eof, line));
	return ret;
}

므앙

쫌 길죠. 근데 어려운건 하나도 없는 코드입니다. (파싱 작업이라는게 실제로 어려운 부분은 하나도 없습니다. 다만 귀찮은 부분이 너무 많을뿐)

토크나이징 끝냈으면, 이제 진짜 파싱을 시작할 수 있어요. 파싱을 시작하기 전에 AST(Abstract Syntax Tree, 추상구문트리)를 설계할 필요가 있습니다. 우리가 파싱을 통해서 얻고자 하는게 바로 이 구문트리니까요.

PGLight의 문장 구조는 크게 표현식(expression)과 구문(statement)로 나눌 수 있어요.

표현식은 이런 놈들

1 2, 3*4*foo("sent")

이구요,

구문은

if(test())

{

foo(bar);

}

var a = 123*4;

요런 놈들입니다. 그래도 모르겠다면, 표현식은 연산자로 연결되어서 값을 평가할 수 있는 코드 일부분, 구문은 표현식을 포함하는 문장으로, 실제로 코드를 구성하는 단위라고 생각하시면 됩니다.

먼저 표현식을 나타내는 트리 구조체를 짜봅시다.

//온갖 구문트리들의 조상님
struct PGL_tree
{
	virtual void ResolveIdentifier(ResolveData* rd) {}
	virtual void GenerateCode(GenerateData* gd) {}
	virtual string GetType() const {return "";}
// 이 함수들은 추후에 코드를 생성할때 쓰는 놈들이에요.
// 지금은 신경쓰지 않아도 됩니다.
};

// 모든 표현식트리의 아버지
struct PGL_expr : public PGL_tree
{
	virtual ~PGL_expr() {}
};

/* 좌측값으로 쓰일수 있는 표현식
참고로 좌측값으로 쓰일수 있는 놈들은 우측값으로도 쓰일수 있어요*/
struct PGL_lexpr : public PGL_expr
{
	virtual void GenerateLCode(GenerateData* gd) {}
	virtual ~PGL_lexpr() {}
};

// 상수값을 표현합니다.
struct PGL_literal : public PGL_expr
{
	shared_ptr<PGLCompoundData> l;
// 값을 담는 구조체 PGLCompoundData입니다.
	PGL_literal(shared_ptr<PGLCompoundData> _l) : l(_l) {}
	void ResolveIdentifier(ResolveData* rd);
	void GenerateCode(GenerateData* gd);
};

// 식별자(대게는 변수죠)를 표현합니다.
// 식별자는 (대게) 좌측값이 될수 있어요
struct PGL_identifier : public PGL_lexpr
{
	string id;
	shared_ptr<PGLID> pid;
	PGL_identifier(string _id) : id(_id), pid(nullptr) {}
	void ResolveIdentifier(ResolveData* rd);
	void GenerateCode(GenerateData* gd);
	void GenerateLCode(GenerateData* gd);
};

// this. 멤버함수에서 사용됩니다.
// 역시 좌측값이 될수 있습니다
struct PGL_this : public PGL_lexpr
{
	PGL_this() {}
	void ResolveIdentifier(ResolveData* rd);
	void GenerateCode(GenerateData* gd);
	void GenerateLCode(GenerateData* gd);
};

// not 연산자. 피연사자를 하나 받습니다
struct PGL_not_expr : public PGL_expr
{
	shared_ptr<PGL_expr> r;
	PGL_not_expr(shared_ptr<PGL_expr> _r = shared_ptr<PGL_expr>()) : r(_r) {}
	void ResolveIdentifier(ResolveData* rd) {r->ResolveIdentifier(rd);}
	void GenerateCode(GenerateData* gd);
};

// and 연산자. 피연산자를 두 개 받아요
struct PGL_and_expr : public PGL_expr
{
	shared_ptr<PGL_expr> l, r;
	PGL_and_expr(shared_ptr<PGL_expr> _l = shared_ptr<PGL_expr>(),
		shared_ptr<PGL_expr> _r = shared_ptr<PGL_expr>()) : l(_l), r(_r) {}
	void ResolveIdentifier(ResolveData* rd) {l->ResolveIdentifier(rd); r->ResolveIdentifier(rd);}
	void GenerateCode(GenerateData* gd);
};

// or 연산자. 피연산자를 두 개 받아요
struct PGL_or_expr : public PGL_expr
{
	shared_ptr<PGL_expr> l, r;
	PGL_or_expr(shared_ptr<PGL_expr> _l = shared_ptr<PGL_expr>(),
		shared_ptr<PGL_expr> _r = shared_ptr<PGL_expr>()) : l(_l), r(_r) {}
	void ResolveIdentifier(ResolveData* rd) {l->ResolveIdentifier(rd); r->ResolveIdentifier(rd);}
	void GenerateCode(GenerateData* gd);
};

// == 연산자. 피연산자 2개
struct PGL_equal_expr : public PGL_expr
{
	shared_ptr<PGL_expr> l, r;
	PGL_equal_expr(shared_ptr<PGL_expr> _l = shared_ptr<PGL_expr>(),
		shared_ptr<PGL_expr> _r = shared_ptr<PGL_expr>()) : l(_l), r(_r) {}
	void ResolveIdentifier(ResolveData* rd) {l->ResolveIdentifier(rd); r->ResolveIdentifier(rd);}
	void GenerateCode(GenerateData* gd);
};

// != 연산자. 피연산자 2개
struct PGL_notequal_expr : public PGL_expr
{
	shared_ptr<PGL_expr> l, r;
	PGL_notequal_expr(shared_ptr<PGL_expr> _l = shared_ptr<PGL_expr>(),
		shared_ptr<PGL_expr> _r = shared_ptr<PGL_expr>()) : l(_l), r(_r) {}
	void ResolveIdentifier(ResolveData* rd) {l->ResolveIdentifier(rd); r->ResolveIdentifier(rd);}
	void GenerateCode(GenerateData* gd);
};

// > 연산자. 피연산자 2개
struct PGL_greater_expr : public PGL_expr
{
	shared_ptr<PGL_expr> l, r;
	PGL_greater_expr(shared_ptr<PGL_expr> _l = shared_ptr<PGL_expr>(),
		shared_ptr<PGL_expr> _r = shared_ptr<PGL_expr>()) : l(_l), r(_r) {}
	void ResolveIdentifier(ResolveData* rd) {l->ResolveIdentifier(rd); r->ResolveIdentifier(rd);}
	void GenerateCode(GenerateData* gd);
};

// >= 연산자. 피연산자 2개
struct PGL_greaterequal_expr : public PGL_expr
{
	shared_ptr<PGL_expr> l, r;
	PGL_greaterequal_expr(shared_ptr<PGL_expr> _l = shared_ptr<PGL_expr>(),
		shared_ptr<PGL_expr> _r = shared_ptr<PGL_expr>()) : l(_l), r(_r) {}
	void ResolveIdentifier(ResolveData* rd) {l->ResolveIdentifier(rd); r->ResolveIdentifier(rd);}
	void GenerateCode(GenerateData* gd);
};

// < 연산자. 피연산자 2개
struct PGL_less_expr : public PGL_expr
{
	shared_ptr<PGL_expr> l, r;
	PGL_less_expr(shared_ptr<PGL_expr> _l = shared_ptr<PGL_expr>(),
		shared_ptr<PGL_expr> _r = shared_ptr<PGL_expr>()) : l(_l), r(_r) {}
	void ResolveIdentifier(ResolveData* rd) {l->ResolveIdentifier(rd); r->ResolveIdentifier(rd);}
	void GenerateCode(GenerateData* gd);
};

// <= 연산자. 피연산자 2개
struct PGL_lessequal_expr : public PGL_expr
{
	shared_ptr<PGL_expr> l, r;
	PGL_lessequal_expr(shared_ptr<PGL_expr> _l = shared_ptr<PGL_expr>(),
		shared_ptr<PGL_expr> _r = shared_ptr<PGL_expr>()) : l(_l), r(_r) {}
	void ResolveIdentifier(ResolveData* rd) {l->ResolveIdentifier(rd); r->ResolveIdentifier(rd);}
	void GenerateCode(GenerateData* gd);
};

// + 연산자. 피연산자 2개
struct PGL_add_expr : public PGL_expr
{
	shared_ptr<PGL_expr> l, r;
	PGL_add_expr(shared_ptr<PGL_expr> _l = shared_ptr<PGL_expr>(),
		shared_ptr<PGL_expr> _r = shared_ptr<PGL_expr>()) : l(_l), r(_r) {}
	void ResolveIdentifier(ResolveData* rd) {l->ResolveIdentifier(rd); r->ResolveIdentifier(rd);}
	void GenerateCode(GenerateData* gd);
};

// - 연산자. 피연산자 2개
struct PGL_sub_expr : public PGL_expr
{
	shared_ptr<PGL_expr> l, r;
	PGL_sub_expr(shared_ptr<PGL_expr> _l = shared_ptr<PGL_expr>(),
		shared_ptr<PGL_expr> _r = shared_ptr<PGL_expr>()) : l(_l), r(_r) {}
	void ResolveIdentifier(ResolveData* rd) {l->ResolveIdentifier(rd); r->ResolveIdentifier(rd);}
	void GenerateCode(GenerateData* gd);
};

// * 연산자. 피연산자 2개
struct PGL_mul_expr : public PGL_expr
{
	shared_ptr<PGL_expr> l, r;
	PGL_mul_expr(shared_ptr<PGL_expr> _l = shared_ptr<PGL_expr>(),
		shared_ptr<PGL_expr> _r = shared_ptr<PGL_expr>()) : l(_l), r(_r) {}
	void ResolveIdentifier(ResolveData* rd) {l->ResolveIdentifier(rd); r->ResolveIdentifier(rd);}
	void GenerateCode(GenerateData* gd);
};

// / 연산자. 피연산자 2개
struct PGL_div_expr : public PGL_expr
{
	shared_ptr<PGL_expr> l, r;
	PGL_div_expr(shared_ptr<PGL_expr> _l = shared_ptr<PGL_expr>(),
		shared_ptr<PGL_expr> _r = shared_ptr<PGL_expr>()) : l(_l), r(_r) {}
	void ResolveIdentifier(ResolveData* rd) {l->ResolveIdentifier(rd); r->ResolveIdentifier(rd);}
	void GenerateCode(GenerateData* gd);
};

// % 연산자. 피연산자 2개
struct PGL_mod_expr : public PGL_expr
{
	shared_ptr<PGL_expr> l, r;
	PGL_mod_expr(shared_ptr<PGL_expr> _l = shared_ptr<PGL_expr>(),
		shared_ptr<PGL_expr> _r = shared_ptr<PGL_expr>()) : l(_l), r(_r) {}
	void ResolveIdentifier(ResolveData* rd) {l->ResolveIdentifier(rd); r->ResolveIdentifier(rd);}
	void GenerateCode(GenerateData* gd);
};

// ^ 연산자. 피연산자 2개
struct PGL_pow_expr : public PGL_expr
{
	shared_ptr<PGL_expr> l, r;
	PGL_pow_expr(shared_ptr<PGL_expr> _l = shared_ptr<PGL_expr>(),
		shared_ptr<PGL_expr> _r = shared_ptr<PGL_expr>()) : l(_l), r(_r) {}
	void ResolveIdentifier(ResolveData* rd) {l->ResolveIdentifier(rd); r->ResolveIdentifier(rd);}
	void GenerateCode(GenerateData* gd);
};

// - 연산자. 피연산자 1개
struct PGL_sign_expr : public PGL_expr
{
	shared_ptr<PGL_expr> r;
	PGL_sign_expr(shared_ptr<PGL_expr> _r = shared_ptr<PGL_expr>()) : r(_r) {}
	void ResolveIdentifier(ResolveData* rd) {r->ResolveIdentifier(rd);}
	void GenerateCode(GenerateData* gd);
};

// . 연산자. 좌측에는 어떤 표현식도 올수 있지만,
// 우측에는 문자열만 올수 있어요
struct PGL_dot_expr : public PGL_lexpr
{
	shared_ptr<PGL_expr> l;
	string r;
	shared_ptr<PGLID> pid;
	PGL_dot_expr(shared_ptr<PGL_expr> _l = shared_ptr<PGL_expr>(),
		string _r = string()) : l(_l), r(_r) {}
	void ResolveIdentifier(ResolveData* rd);
	void GenerateCode(GenerateData* gd);
	void GenerateLCode(GenerateData* gd);
	virtual string GetType() const {return "dot_expr";}
};

// [] 배열/사전 참조 연산자. 좌측, 우측 둘 다 어떤 표현식도 올수 있습니다
struct PGL_ref_expr : public PGL_lexpr
{
	shared_ptr<PGL_expr> l, r;
	PGL_ref_expr(shared_ptr<PGL_expr> _l = shared_ptr<PGL_expr>(),
		shared_ptr<PGL_expr> _r = shared_ptr<PGL_expr>()) : l(_l), r(_r) {}
	void ResolveIdentifier(ResolveData* rd) {l->ResolveIdentifier(rd); r->ResolveIdentifier(rd);}
	void GenerateCode(GenerateData* gd);
	void GenerateLCode(GenerateData* gd);
};

// 함수 호출 표현식. 함수주소값과 인자 목록이 들어갑니다
struct PGL_functioncall_expr : public PGL_expr
{
	shared_ptr<PGL_expr> l;
	vector<shared_ptr<PGL_expr>> params;
	void ResolveIdentifier(ResolveData* rd) {l->ResolveIdentifier(rd); for(auto&r : params)r->ResolveIdentifier(rd);}
	void GenerateCode(GenerateData* gd);
};

// 배열 표현식. 배열의 요소들이 들어갑니다
struct PGL_array_expr : public PGL_expr
{
	vector<shared_ptr<PGL_expr>> elem;
	void ResolveIdentifier(ResolveData* rd) {for(auto&r : elem)r->ResolveIdentifier(rd);}
	void GenerateCode(GenerateData* gd);
};

// 키와 값을 담는 구조체. 혼자 PGL_expr의 자손이 아닙니다 스파이에요.
struct PGL_key_val
{
	shared_ptr<PGL_expr> key;
	shared_ptr<PGL_expr> val;
	void ResolveIdentifier(ResolveData* rd) {key->ResolveIdentifier(rd); val->ResolveIdentifier(rd);}
};

// 사전 표현식. 키와 값을 담는 구조체 배열이 들어갑니다
struct PGL_dict_expr : public PGL_expr
{
	vector<PGL_key_val> elem;
	void ResolveIdentifier(ResolveData* rd) {for(auto&r : elem)r.ResolveIdentifier(rd);}
	void GenerateCode(GenerateData* gd);
};

그 다음은 구문들을 나타내는 트리 구조체!

// 구문트리의 아버지
struct PGL_sentence : public PGL_tree
{
	virtual ~PGL_sentence() {}
	virtual void CollectID(ResolveData* rd) {}
	virtual void EraseIdentifier(ResolveData* rd) {}
	virtual int CountPopStack() const {return 0;}
};

// 단순 구문 트리를 위한건데 아직 아무 내용도 없네요ㅋ
struct PGL_simple_sentence : public PGL_sentence
{

};

// 대입문.
struct PGL_assign : public PGL_simple_sentence
{
	shared_ptr<PGL_lexpr> l;
	shared_ptr<PGL_expr> r;
	void ResolveIdentifier(ResolveData* rd) {l->ResolveIdentifier(rd); r->ResolveIdentifier(rd);}
	void GenerateCode(GenerateData* gd);
};

// 함수 호출문
struct PGL_call : public PGL_simple_sentence
{
	shared_ptr<PGL_expr> l;
	void ResolveIdentifier(ResolveData* rd) {l->ResolveIdentifier(rd);}
	void GenerateCode(GenerateData* gd);
};

// 코드 전체를 담는 놈
struct PGL_whole
{
	vector<shared_ptr<PGL_sentence>> sents;
	void CollectID(ResolveData* rd) {for(auto& r : sents)r->CollectID(rd);}
	void ResolveIdentifier(ResolveData* rd) {for(auto& r : sents)r->ResolveIdentifier(rd);for(auto& r : sents)r->EraseIdentifier(rd);}
	void GenerateCode(GenerateData* gd);
};

// 코드 블럭을 담는 놈
struct PGL_block : public PGL_whole
{
	void GenerateCode(GenerateData* gd);
	int CountPopStack() const {return accumulate(sents.begin(), sents.end(), 0, [](int a, const shared_ptr<PGL_sentence>& b){return a   b->CountPopStack();});}
};

// if문을 담는놈.
// else if 같은 경우는 else문 속의 if문으로 볼 수 있습니다
struct PGL_if : public PGL_sentence
{
	shared_ptr<PGL_expr> cond;
	PGL_block trueSents, falseSents;
	void ResolveIdentifier(ResolveData* rd) {cond->ResolveIdentifier(rd); trueSents.ResolveIdentifier(rd); falseSents.ResolveIdentifier(rd);}
	void GenerateCode(GenerateData* gd);
};

// while문 담는놈
struct PGL_while : public PGL_sentence, public PGL_loopUnit
{
	shared_ptr<PGL_expr> cond;
	PGL_block sents;
	PGL_block doneS;
	PGL_block elseS;
	void ResolveIdentifier(ResolveData* rd) {cond->ResolveIdentifier(rd); sents.ResolveIdentifier(rd); doneS.ResolveIdentifier(rd); elseS.ResolveIdentifier(rd);}
	void GenerateCode(GenerateData* gd);
};

// return 문
struct PGL_return : public PGL_sentence
{
	shared_ptr<PGL_expr> ret;
	void ResolveIdentifier(ResolveData* rd) {ret->ResolveIdentifier(rd);}
	void GenerateCode(GenerateData* gd);
};

// yield 문
struct PGL_yield : public PGL_sentence
{
	shared_ptr<PGL_expr> ret;
	void ResolveIdentifier(ResolveData* rd) {ret->ResolveIdentifier(rd);}
	void GenerateCode(GenerateData* gd);
};

// break문
struct PGL_break : public PGL_sentence
{
	string label;
	void GenerateCode(GenerateData* gd);
};

// continue문
struct PGL_continue : public PGL_sentence
{
	string label;
	void GenerateCode(GenerateData* gd);
};

// 변수 선언문
struct PGL_decl_var : public PGL_sentence
{
	string name, type;
	shared_ptr<PGL_expr> init;
	shared_ptr<PGLID> pid;
	void CollectID(ResolveData* rd);
	void ResolveIdentifier(ResolveData* rd);
	void EraseIdentifier(ResolveData* rd);
	void GenerateCode(GenerateData* gd);
	int CountPopStack() const {return 1;}
};

// for문
struct PGL_for : public PGL_sentence, public PGL_loopUnit
{
	shared_ptr<PGL_decl_var> var;
	shared_ptr<PGL_expr> cond;
	shared_ptr<PGL_simple_sentence> loop;
	PGL_block sents;
	PGL_block doneS;
	PGL_block elseS;
	void ResolveIdentifier(ResolveData* rd);
	void GenerateCode(GenerateData* gd);
};

// 범위기반 for문
struct PGL_for_in : public PGL_sentence, public PGL_loopUnit
{
	string varKey, varVal;
	shared_ptr<PGLID> pidCont;
	shared_ptr<PGLID>pidIt;
	shared_ptr<PGLID> pidKey;
	shared_ptr<PGLID> pidVal;
	shared_ptr<PGL_expr> container;
	PGL_block sents;
	PGL_block doneS;
	PGL_block elseS;
	void ResolveIdentifier(ResolveData* rd);
	void GenerateCode(GenerateData* gd);
};

// 스파이다. 인수목록을 담는 구조체입니다
struct PGL_param
{
	shared_ptr<PGLID> pid;
	string name, type;
};

// 함수 선언문, 변수를 캡쳐할 수 있는 단위(closureUnit)
struct PGL_decl_function : public PGL_sentence, public PGL_closeUnit
{
	string name, type;
	vector<PGL_param> params;
	PGL_block sents;
	shared_ptr<PGLID> pid;
	shared_ptr<PGLFunctionData> faddr;
	void CollectID(ResolveData* rd);
	void ResolveIdentifier(ResolveData* rd);
	void EraseIdentifier(ResolveData* rd);
	void GenerateCode(GenerateData* gd);
	void Link(int pos);
	string GetName() const {return name;}
};

// 익명함수 표현식. (얘는 표현식이에요. 구문 아닙니다), 변수를 캡쳐할수 있는 단위에요.
struct PGL_function_expr : public PGL_expr, public PGL_closeUnit
{
	string type;
	vector<PGL_param> params;
	PGL_block sents;
	shared_ptr<PGLID> pid;
	shared_ptr<PGLFunctionData> faddr;
	void ResolveIdentifier(ResolveData* rd);
	void GenerateCode(GenerateData* gd);
	void Link(int pos);
};

PGLID, PGLFunctionData 같은 놈들이 등장해서 코드가 번잡해졌지만 저런거 싹다 무시하고, 전체적인 구조만 보면돼요. 이제 우리가 할 일은 토큰목록을 파싱하여 이 구조에 맞춰서 내용물들을 채워주면 되는거죠. 으앙 코드가 너무 길어져서 터질거 같네요. 본격 파싱은 다음으로 넘겨야겠습니다.

'프로그래밍 > PG어' 카테고리의 다른 글

PGLight 배포파일 (2)	2013.10.11
두둥! (PGLight 실행기) PGLRun (3)	2013.07.13
5일만에 뚝딱 스크립트 언어 만들기 PGLight (5/5) (6)	2013.07.06
5일만에 뚝딱 스크립트 언어 만들기 PGLight (4/5) (1)	2013.06.24
5일만에 뚝딱 스크립트 언어 만들기 PGLight (3/5) (2)	2013.06.17
5일만에 뚝딱 스크립트 언어 만들기 PGLight (1/5) (3)	2013.06.14

글쓴이 ∫2tdt=t²+c

제가 안 것의 대부분은 인터넷으로부터 왔으니, 다시 인터넷에게 돌려주어야 합니다. bab2min@gmail.com

방문자

오늘

어제

전체

나의 큰 O는 log x야

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

상세 컨텐츠

본문 제목

본문

'프로그래밍 > PG어' 카테고리의 다른 글

관련글 더보기

댓글 영역

추가 정보

인기글

최신글

글쓴이 ∫2tdt=t²+c

댓글

태그

방문자

티스토리툴바