脚本引擎如何实现？

访客源码剖析 2026-06-05 18:52:12 1

本文目录导读：

核心架构：一个简单的栈式虚拟机（Stack-based VM）
第一步：从源代码到“指令”——编译阶段
第二步：执行指令——运行时阶段
关键优化与高级特性
最小可行实现：几百行代码即可
如何学习与实现？

这是一个非常核心且复杂的问题,脚本引擎就是一个执行“脚本”代码的环境，它负责解析、编译（或解释）并运行用一种高级语言（如 Lua, Python, JavaScript）编写的代码。

实现一个完整的、高性能的脚本引擎是一项巨大的工程，通常需要团队和数年的时间，但我们可以从核心原理和关键步骤来理解它是如何实现的。

我将从最底层开始,逐步构建一个概念上的脚本引擎。

核心架构：一个简单的栈式虚拟机（Stack-based VM）

大多数轻量级脚本引擎（如 Lua, Python 的早期版本，以及一些游戏脚本引擎）都采用栈式虚拟机的架构，这是一种非常灵活且易于实现的方式。

整个执行过程可以抽象为三大模块：

词法分析器
语法分析器（解析器）
虚拟机执行器

第一步：从源代码到“指令”——编译阶段

脚本引擎不会直接理解 a = 1 + 2 这样的字符串，它需要先把这个字符串翻译成它能理解的低级指令。

词法分析（Lexing / Tokenization）

输入：原始源代码字符串，"a = 1 + 2"。
输出：一个Token（词法单元）流，Token 是语言中有意义的独立单元，比如关键字、标识符、数字、运算符、括号等。
如何实现：词法分析器会逐个字符地读取源代码，并根据定义好的规则（正则表达式或状态机）将它们分组。
- 读到 a，发现它是字母开头，于是继续读后面的字符（如果有），直到遇到非字母数字字符，产生一个 Token：IDENTIFIER("a")
- 读到，产生 Token：ASSIGN
- 读到 1，它是数字，产生 Token：NUMBER(1)
- 读到，产生 Token：PLUS
- 读到 2，产生 Token：NUMBER(2)
- 最终输出：[IDENTIFIER("a"), ASSIGN, NUMBER(1), PLUS, NUMBER(2)]

语法分析（Parsing）

输入：Token 流（来自词法分析）。
输出：一个抽象语法树（AST, Abstract Syntax Tree），AST 是源代码的树形结构表示，它反映了语言的语法规则。
如何实现：语法分析器根据语言的语法规则（通常由上下文无关文法定义，如 BNF/产生式）来组织 Token 序列。
- 它知道 a = 1 + 2 是一个“赋值语句”。
- 赋值语句的右边 1 + 2 是一个“加法表达式”。
- 它构建一个树：
```
     (=)
    /   \
  (a)   (+)
       / \
     (1) (2)
```
- 最终输出：上面的树结构（AST）。对于简单实现，可以直接跳过 AST 生成字节码，但 AST 是更标准、更强大的方法，也是优化和代码分析的基础。

代码生成（Code Generation）——生成字节码

输入：AST。
输出：字节码（Bytecode），字节码是一连串与机器码类似但更抽象、与平台无关的指令，它是虚拟机将要“执行”的对象。
如何实现：遍历整个 AST，为每个节点生成一条或几条指令。

对于 a = 1 + 2 的 AST，我们可能会遍历并生成这样的指令序列（一个简单的栈机指令集）：
```
 LOAD_CONST  1       // 将常量 1 压入栈顶
2.  LOAD_CONST  2       // 将常量 2 压入栈顶
3.  ADD                 // 弹出栈顶两个数 (2 和 1)，相加，将结果 (3) 压回栈顶
4.  STORE_FAST   'a'    // 将栈顶的值 (3) 弹出，存入名为 'a' 的变量
5.  RETURN                  // (可选，如果是表达式语句，结束)
```
“常量表”：常量 1 和 2 会被存储到一个单独的区域（常量池/常量表），指令里只存了它们在常量表中的索引，而不是原始值。

第二步：执行指令——运行时阶段

现在我们有了一串字节码（一个指令数组），接下来就交给虚拟机来执行。

虚拟机（Virtual Machine）

虚拟机是一个大的循环（通常称为 eval() 或 interpret() 循环），它会：

取指（Fetch）：从指令数组中读取一条指令，并让程序计数器（PC, Program Counter）指向下一条。
译码（Decode）：根据当前指令的操作码（Opcode，如 LOAD_CONST, ADD, STORE_FAST），决定要执行什么操作。
执行（Execute）：根据指令操作码和操作数，执行具体操作。

核心数据结构：操作数栈

上面提到的栈是虚拟机的核心,它是一个 LIFO（后进先出）的数据结构，所有计算、函数调用参数传递等都通过这个栈进行。

下面是上面字节码在栈机中的执行过程（以栈顶为 top）：

初始状态：栈空。PC = 0。
指令 0：LOAD_CONST 1
- 从常量表索引 1 处取出值 1。
- 压入栈顶。
- 栈状态：[1] (top)
指令 1：LOAD_CONST 2
- 从常量表索引 2 处取出值 2。
- 压入栈顶。
- 栈状态：[1, 2] (top)
指令 2：ADD
- 弹出栈顶两个值：pop() -> 2, pop() -> 1。
- 计算：1 + 2 = 3。
- 压入结果 3。
- 栈状态：[3] (top)
指令 3：STORE_FAST 'a'
- 弹出栈顶值：pop() -> 3。
- 在局部变量区找到名称为 'a' 的位置（或创建一个），将 3 存入。
- 栈状态： (空)
指令 4：RETURN
执行结束。

虚拟机的伪代码实现：

def run(vm_state, bytecode):
    stack = []  # 操作数栈
    locals = {} # 局部变量表
    pc = 0      # 程序计数器
    while pc < len(bytecode):
        instruction = bytecode[pc]  # Fetch
        pc += 1                     # 指向下一条
        opcode = instruction.opcode # Decode
        operand = instruction.operand
        if opcode == 'LOAD_CONST':
            stack.append(constant_pool[operand]) # Execute
        elif opcode == 'ADD':
            b = stack.pop()
            a = stack.pop()
            stack.append(a + b)
        elif opcode == 'STORE_FAST':
            value = stack.pop()
            locals[operand] = value
        # ... 其他指令
    return stack.pop() if stack else None

关键优化与高级特性

一个生产级的脚本引擎远比这个复杂,它需要处理：

垃圾回收（GC）：自动管理脚本中的对象内存（如字符串、数组、函数闭包等），防止内存泄漏，常见算法：标记-清除、分代回收。
函数和闭包：函数如何被调用、参数如何传递、如何实现闭包（内部函数访问外部函数的变量）？这需要实现“调用帧（Call Frame）”和“作用域链”。
异常处理：try...catch...finally 机制，需要在整个字节码中跳转。
内置库和对象模型：提供 print, math.sin, string.length 等标准库和面向对象系统（类、继承、多态）。
类型系统：是动态类型（如 JS、Python）还是静态类型（如 TypeScript 编译后）？动态类型需要在运行时检查类型，效率较低。
Just-in-Time (JIT) 编译：现代高性能引擎（如 V8 / JavaScript, PyPy / Python）并非简单解释，而是在运行时将“热点”字节码编译成机器码，然后直接执行机器码，性能可以逼近甚至超过 C++ 代码。

最小可行实现：几百行代码即可

如果你想亲手尝试,可以用 Python 或 C 语言实现一个极简的脚本引擎，支持整数运算和基本变量赋值，以下是用 Python 实现的概念性伪代码结构：

# 1. 词法分析 -> Token 列表
def lex(code: str) -> list:
    pass
# 2. 语法分析 -> AST
def parse(tokens: list) -> ASTNode:
    pass
# 3. 编译 / 代码生成 -> 字节码指令
def compile(node: ASTNode) -> list:
    pass
# 4. 虚拟机 -> 执行字节码
class VM:
    def __init__(self):
        self.stack = []
        self.locals = {}
        self.constants = []
    def run(self, bytecode):
        pc = 0
        while pc < len(bytecode):
            op, arg = bytecode[pc]
            pc += 1
            if op == 'LOAD_CONST':
                self.stack.append(self.constants[arg])
            elif op == 'ADD':
                b = self.stack.pop()
                a = self.stack.pop()
                self.stack.append(a + b)
            elif op == 'STORE_FAST':
                self.locals[arg] = self.stack.pop()
            elif op == 'RETURN':
                return self.stack.pop() if self.stack else None
            # ... 更多指令
# 使用示例
code = "a = 1 + 2"
tokens = lex(code)          # [ID('a'), ASSIGN, NUM(1), PLUS, NUM(2)]
ast = parse(tokens)          # AssignNode(id='a', value=BinOp(left=Num(1), op='+', right=Num(2)))
bytecode = compile(ast)      # [ (LOAD_CONST, 0), (LOAD_CONST, 1), (ADD, None), (STORE_FAST, 'a'), (RETURN, None) ]
vm = VM()
vm.constants = [1, 2]        # 假设常量池
result = vm.run(bytecode)    # 执行，vm.locals['a'] == 3

如何学习与实现？

教程：学习 “Writing a Simple Interpreter from Scratch in Python” 或类似教程。
书籍：《编译原理（龙书）》、《脚本引擎的设计与实现》。
开源项目参考：
- Lua：非常优秀的轻量级嵌入式脚本语言，其 C 语言实现（lua.c）是学习脚本引擎的经典范例，代码量小（约 2 万行），结构清晰。
- Python：CPython 虚拟机（ceval.c）可以看。
- Wren：一个小巧、现代、面向对象的脚本语言，也是用 C 实现的。
- MiniBasic / TinyJS：简单的 Basic 或 JS 解释器实现，代码量只有几百到几千行。