伦敦国王学院EEM笔记：Intelligence And Autonomy 智能自主

2025-07-01

王道（KCL电子工程专业课内学习） / Lecture

Word count: 10.3k | Reading time≈ 38 min

Introduction

Intelligence 智能，是学习新知识和新技能的过程；而 Autonomy 自主，是能够自主做出决策并执行的过程。

通常涉及到机器学习。

learning 的分类：

按照 feedback 分类：supervised 提供直接的正确结果 true output；reinforcement 强化，提供间接结果 indirect output 比如 reward 或者 punishment；unsupervised 无监督，没有 feedback 或者 output。
按照 output 分类：concept learning 概念学习，Binary output based on +ve/-ve examples 二进制输出，比如 0 是“是这个概念”，1是“不属于这个概念”； classification；regression 数据或顺序。
按照 sampling 分类：independent or dependent.

Control Systems Basics

Dynamical system：通常涉及到时间的模型，比如自动驾驶，汽车需要随时注意当前状态并做出决策。

State-space models：除了输入输出映射，还能呈现出系统内部的模型。state-space 是n维的状态输入，比如 xp 就是第p维度。

比如：cart-pole 模型，这是一个自动化专业的例子？好像是通过左右移动方块，最终实现让小球垂直立在方块正上方的系统。状态空间涉及4维参数：木块（水平方向上）的位置，木块（水平方向上）的速度，小球所处角度，小球角速度。

而 observation-space 观测空间则是外部可见的空间，比如这个例子最直观的可观测的结果就是我们肉眼观测到的小球所处的坐标 y=(r1, r2)。

action space 则是要采取的行动，比如根据当前的 state-space 想让小球立起来，木块需要向右移动有一个向右的力。

总地来说，x 代表物体所处状态，y 代表我们观测到的物体状态（可能和 x 有一定出入），u 代表我们要采取的行为。

一般可以用形如下面的公式表达：

其中的 x 上面带一个点，表示”我们希望 x 达到的下一步状态“。

对于多步状态转换，依次计算：$$x_{k+1}=\overline Ax_k+\overline B u_k=\overline A(\overline Ax_{k-1}+\overline B u_{k-1})+\overline B u_k=…$$

Major Concepts

控制理论的一些主要概念：

controllability：能让模型实现我们想让其完成的任务。
observability：能看到系统内部在发生的过程。
stability：为了让系统行为有界且可以被预测。

controllability 及证明方法

之前的线性动态系统系统还可以这样表示：

也就是：

想要实现 controllability，controllability matrix must not be singular（非奇异矩阵，就是首先是一个对称矩阵（否则不能被称作奇异或者非奇异矩阵），其次行列式不等于0）。

例题：判断下面这个系统的 controllability：

根据之前的公式可以知道 A B 矩阵分别是左边和右边的。

而矩阵只有两维状态，所以 $$G=(\overline B, \overline A \overline B)$$

G=[1 -2]

[0 0]

行列式=0，The system is not controllable.

Feedback Control

带有反馈的控制：error = predict value - actual value 进行调整。

上面的 u 是不全的，请先忽略。

假设我们把 u 设置为：$$u=K_p \cdot e$$，和误差成一定比例。这样会出现什么问题？

如果 gain 设置得太小，则误差减小的速度太慢；如果gain 设置得太大，则可能出现超调 overshoot 现象。

所以说除了 e，最好再加两个部分：e 的积分和 e 的微分。

积分部分可以有效解决增长速度太慢问题，但是可能会引发 overshoot 问题；

微分部分可以有效解决 overshoot 问题，并且减小系统达到稳态所用时间，增加稳定性。

三者互相结合使用，这就是有名的 PID 算法。

这三个系数分别叫做：Proportional gain, derivative gain, integral gain

Feedforward Control

前向控制系统有助于快速移动和高遵从性 fast movements with high compliance，快速达到目标。通俗来说，就是系统根据先验知识（经验）来预先计算控制输入的方法，有利于 responsiveness。

比如对于机械臂控制，如果我们知道期望机械臂达到的最终状态，是否可以根据该状态做受力分析，从而分析出力矩，应当施加在每个机械关节上的力，来减少没有 feedforward 的试错时长呢？

Supervised Learning 监督学习

我们之前已经引入过，监督学习指的是知道最终要达到的状态，因此可以根据预测值和真实值的误差进行学习训练。

主要分为三类问题：

concept 概念类问题，比如“这个东西是一个猫”，其实机器也不懂概念但是只是将输入和输出“猫”关联起来。
classification 分类问题。如异常情况检测等。
regression 回归问题，比如求出一个杯子的质量数值。比如构造 feedforward control 系统，以及设定 reinforcement 强化学习的有效奖惩数值很有用。

具体学习过程中有很多需要确定。数据集如何选择？训练模型如何选择？error 评估方法如何选择？优化方法如何选择？

比如：

泛化地讲，主要分为两种 error 评估：generalisation error 和 empirical error，这两种一个是用正确的映射函数和我们的预测值函数计算误差，一个是用样本数据带入我们的预测值函数计算误差（不知道真实解，找不到正确的映射函数的情况）。Empirical Error 的情况更多见。

Linear Models

多项式方程（形如：$$y=\theta_0x_0+\theta_1x_1+…$$）这种的方程，如果利用最小二乘距离计算误差来找损失最小的 θ 向量参数，最终计算结果如下：

中间过程就省略了，其实就是(y-θx)^2 来计算误差。

我们也可以进一步把这个公式推广到非线性模型中。其实线性模型就是总结为 $$\mathbf{y}=\mathbf{X}\boldsymbol{\theta}$$，如果非线性模型我们也可以总结成一个特征向量 * 一个参数向量的形式，就一样可以应用这个公式。

Overfitting

degree 太大了就会导致 overfit，比起寻找数据的规律，更像“努力往样本数据上凑”。

（当然我们知道，degree太小了会欠拟合 underfitting，比如一个二次函数的图像我非要用一次函数去拟合，怎么拟合都不会特别精确）。

所以我们也需要一个方法来找到最佳 degree。

Bias-Variance Trade-off

其实另一个角度来说，找到最佳 degree 的过程也是最小化泛化误差的过程。

第一部分：噪声导致的方差。

第二部分：bias，选择模型产生的问题。我们要做的就是调整模型或者 degree 让这一部分更小。

第三部分：estimate error，训练产生的 error，可能是数据集选的不好或者太少了导致的。

Model Selection

通过曼巴 elbow 方法来确定模型的复杂度选取。

首先我们把数据分为训练集和测试集，进行交叉验证 cross validation。下图中我们可以明显看到有一个 test 测试数据集误差的极小值，或者有的图可能随着模型复杂度增加 test sample 的误差一直在减小但是在 elbow 点往后模型复杂度增加，error 减小的幅度越来越小，提升模型复杂度来减小误差的性价比变得越来越小。elbow 点就是最佳的模型复杂度点。

Ridge regression

之前的最小二乘回归方法有一个很大的问题：依赖于每一列，每一个特征之间的独立性。如果特征之间关联比较大，那么误差和方差也会成倍增加，XTX 可能找不到逆。

改进后的计算公式如下：

lambda 就是用于减弱特征之间相关联的问题的参数，lambda 越大，对关联特征的鲁棒性就越强。

下面的是简化的计算公式，I 应该是单位矩阵。

Beyond Linear Models

如果实在是没办法用如上的特征和参数相乘的方式表示如何处理呢？主要有两种方法。

Local Approximation

把大学习问题拆成许多局部的小学习问题。

其中，fk 是第k个局部学习预测模型；w 是每个局部学习预测模型的权重。

最终的 solution 计算公式：

Neural Network

整体来说不算是线性问题，是多次迭代，每次把上一层的参数作为下一层的特征值输入，提取“特征中的特征中的特征……”寻找底层规律。

第一层输出是h，第二层h1，一直到最后一层 y=h_(L-1).

y 是每一层输出；θ 是当前层权重；phi 是上一层输入。

误差计算公式：从 y 开始反向传播推回去。

yr,n 是第 n 个样本第 r 个神经元的目标输出，带波浪线是模型实际输出。

Imitation Learning 模仿学习

学习，模仿行为。最典型的例子就是机器人。

模仿学习主要分为四个问题：

如何采集数据？传感器等选择。
如何处理数据，和 behaviour 相关联？
如何训练学习？
如何将最终结果转化为行为的实现？

Capturing the data

比如：人类用操纵杆控制机器；录像视觉识别等。

Encoding the Behaviour

主要分为两种：

non-autonomous 非自主：比如只是单纯跟随轨迹。这种方法不具备泛化能力，因为是纯纯的模仿。
autonomous 自主：比如 policy mapping 策略映射。

Learning algorithm

取决于行为复杂度和数据的可用性。

最简单的模仿学习：建模到线性控制策略。

y=u：要采取的力/力矩。

You can't use 'macro parameter character #' in math mode\phi=(e,\dot e)^T$$ 误差特征向量和其时间导数。 $$\theta=(K_p, K_d)^T$$ proportional and derivative gains. 常微分方程 ordinary derivative equation 只包含常导数，不包含偏导。 如下图，左侧图中出现了一些 fixed points 即我们的学习最终可能会趋向的稳态。 - attractor：吸引子。 - repeller：排斥子。 - saddles：鞍子，某些方向吸引某些方向排斥。 右侧是一个 Limit cycle，稳态是一个周期性孤立闭合轨迹 periodic isolated closed trajectory，不过不会在线性系统中出现。 ![image-20250306201847012](https://raw.githubusercontent.com/Jingqing3948/FigureBed/main/mdImages/202503062018119.png) 一些定义： <img src="https://raw.githubusercontent.com/Jingqing3948/FigureBed/main/mdImages/202504181143755.png" alt="image-20250417235802109" style="zoom:67%;" /> ### Dynamic Movement Primitives DMPs 是一种用于描述和生成复杂运动轨迹的数学模型。 将复杂的运动分解为一系列简单的“运动原语”，每个原语可以独立地被学习和重用。 ![image-20250306213613010](https://raw.githubusercontent.com/Jingqing3948/FigureBed/main/mdImages/202503062136154.png) g：goal，最终目标位置。 y：当前位置。 z：中间变量，类似速度或者加速度？类似 PID 的 I 控制模型更快达到稳态。 τ 是控制速度的参数，α 和 β 是正则化参数，调整稳定性和响应速度。 此外，为了创建更复杂的动力学行为，可以在基本方程中加入一个非线性函数 ( f(x) )：驱动系统控制运动策略，而调制系统单纯管理非线性方程 f(x) 的输入x。 图中红色部分是引入 f(x) 后的状态曲线。 ![image-20250306214032164](https://raw.githubusercontent.com/Jingqing3948/FigureBed/main/mdImages/202503062140279.png) ![image-20250306214228716](https://raw.githubusercontent.com/Jingqing3948/FigureBed/main/mdImages/202503062142836.png) ### Behaviour realisation 主要还是两个问题：泛化和抽象。 - 泛化：训练完一个数据，我们能否拿到另一个对象身上使用？ - 抽象：我们能否忽略所有的环境因素只考虑主体？比如擦窗户动作，如果设计擦窗户机器人，数据是否会包含梯子绳子的晃动数据等？ Correspondence Problem：由于演示者和模仿者的物理形态或者动态力学存在差异，不能直接照搬，要找一定的方法进行动作映射。通解是不存在的，因为是 context dependent 上下文相关的。 ## Decision Making 如何在信息不完整的环境中，利用有限的感知 perception 来做出 decision？ 每次我们读取当前状态，根据当前状态和可以采取的 action 决定下一步要做什么。然后每一步会收到相应的 reward 奖励，让机器能评估自己做的怎么样（reinforcement learning）。 ### Reward Function 首先建立奖励函数。 让我们先从一个简单的例子开始，这个例子中我们采取一定的决策后就知道 agent 一直到结束所获取的全部 reward。比如一个简单迷宫，小白鼠只有东西南北四个入口可以选，我们选择一个入口后就知道后续确定的走向了，环境并不会因为 action 或者时间的变化而改变。 Q：长期期望奖励。

Q(u)=E[j_k∣u_k=u]

You can't use 'macro parameter character #' in math mode Q 的计算方法是多次尝试后统计该动作获得的奖励的平均值。统计数据越多越接近标准值。 ![image-20250307000713566](https://raw.githubusercontent.com/Jingqing3948/FigureBed/main/mdImages/202503070007722.png) ### Greedy action 然后根据奖励函数采取策略。 贪心算法的核心是每一步都选择 Q 最大的 u。

u_k^*=arg\ max\ Q_k(u)

u=\pi(x)

Contact Me

Copyright： Copyright is owned by the author. For commercial reprints, please contact the author for authorization. For non-commercial reprints, please indicate the source.