<thead id="669jo"><option id="669jo"></option></thead>

      1. <tr id="669jo"><font id="669jo"></font></tr>

        创建机器人时代的轻松生活

        公司新闻

        论文笔记:Survey of Model-Based Reinforcement Learning

        发布日期:2020-08-07 11:17:07来源:张晓龙浏览次数:

        论文笔记:Survey of Model-Based Reinforcement Learning

        论文笔记:Survey of Model-Based Reinforcement Learning

        这几天学习一篇综述文章,做个小笔记.
        Title: Survey of Model-Based Reinforcement Learning: Applications on Robotics

        [未完成,进行中.....]

        需求: 自适应机器人: Adaptable Robot

        难点: 强化学习需要机器人和环境的交互训练,这个过程有可能对机器人和环境造成损害,尤其是在人机协作的场合.

        信念:虽然目前有非常多的困难,但是RL将使得机器人变得更加智能化.

        RL/Model based/Model free

        RL和其他深度学习方法的区别在于RL包含了智能体与环境的交互,主要用于解决决策问题.

        机器人的state可以表示为连续或离散值. 机器人控制器在状态s,通过策略π生成动作a(电机动作). 在确定性策略中, 产生唯一a. 在随机用例中, 依赖于随机变量ε,产生一个a的概率分布π (a|s, ε).

        RL算法的目标是找到回报函数r的最大期望值.

        RL的研究大部分都是Model free, 但近来Model based RL approach越来越多.

        Model based RL相比Model free 在处理真实世界用例时还是有一定优势.

        机器人与环境的交互是一个MDP马尔科夫过程. Model based 和 model free的区别在于机器人与环境的交互模型. Model free没有环境,模型,完全基于试错机制(trial and error).

        [公式]

        本文对Model based 方法进行分类. 标准如下:

        • 价值函数Value function定义
        • 优化策略Transition policy方法
        • 转换模型Transition model 和学习方法

        Reward function: 回馈函数,给出策略

        Return function: 回报函数,给出回报期望值

        RL 方案2大类型

        1. Value Function V或Value-action function Q
          Bellman方程:
          [公式]
          DP: Dynamic Programming:迭代算法. 策略碟调先进行对当前策略评估,计算状态或值函数;然后进行策略改进. transition dynamics
          MC: Monte Carlo method: based on sampling
          TDL: Temporal Difference Learning: 计入状态之间的value difference
          DDP:ifferential Dynamic Programming
        2. Policy search methods: 更适合解决高维的多自由度机器人问题
          - Gradient based methods
          - Expectation Maximization methods
          - Information Theory: Exploit concepts such as entropy
          - Bayesian optimization methods
          - Evolutionary computation
        3. Transition Models
          - Stochastic
          - Deterministic
        4. Return Functions
          - Discounted
          - Averaged

        Policy search method

        相比值函数方法通过最大化Value来确定策略,Policy search方法通过对策略参数化, 寻找optimal policy.

        5个主要分类:

        1. 梯度下降法
          调节神经网络的权重值. 一般先进行simulation训练,然后迁移到真实机器人上.
          需要设置步长,可能遇到收敛慢的问题. The Probabilistic Inference for Learning Control (PILCO) framework是当前最好的方法,训练需要的样本少, 速度快. 他的转移概率模型(Transition dynamics model)可以很好的处理不确定的输入, 对于轨迹预测表现好, 错误容忍度高.
        2. Sampling-based方法
        3. Bayesian method
        4. Evolution method
        5. Information Theory

        Transition models

        Application on Robotics(机器人应用)

        • UAV
          • Hovering
          • Maneuvering
        • UGV
          • Docking
          • Navigation
        • UUV
          • Tracking
          • Swimming
        • Bipedal
          • Kicking
          • Walking
          • Balancing
        • Robotic Manipulators
          • Surgical
          • Motion control
          • Ball-hitting

        重点关注: Robotic Manipulator 应用方向

        State空间为连续值, 包含每个关机joint的位置position和速度velocity或加速度acceleration信息

        Action空间也是连续值, 为3维数据, 包含力矩torque.

        这个领域包含了小自由度的机器人,还有高自由度机器人如PR2,避障任务等.

        结论

        前面讨论了Model based RL的成功经验. 但实际上这些应用都是简单化任务或游戏任务,如打乒乓球,羽毛球,钟摆等,尽管有一些自动驾驶方面的"成功案例",但在更关注可靠性与鲁棒性的场合如服务和工业机器人还缺乏成功证据. 不仅强化学习, 整个深度学习领域都缺乏成功案例.但是在环境或操作物体经常变化的人机协作领域场景下,强化学习还是可以提供帮助.

        Model based RL因为需要更少的环境交互,因此比Model free更为适合机器人学习.

        环境交互少,对机器人磨损和伤害更轻微.因此我们通过本文分析如何应用Model based approach到服务和工业机器人,例如非常常见而且极具挑战性的pick and place操作. 产线装配就属于这个类型.

        学习一个自适应的pick and place操作, 工具手需要具备传感器来感知环境和备操作物体, 识别障碍物. 避障功能至关重要. 回报值可定义为当前状态与目标状态的距离. 轨迹平滑则通过策略优化方法实现. 损失被定义为非预期状态如碰撞发生.

        另外一个目标是策略学习过程的快速收敛.

        值函数迭代方法在大的连续值状态和动作空间不适用,因为其V或Q函数需连续计算无终止条件.

        Sampling 和TD学习方法因为没有transition model的先验模型也存在局限性.

        DDP来自于值函数方法,但具备可行性. DDP对初始轨迹的约束条件限制了系统的自主性.

        Information Theory算法同样依赖于初始轨迹.因此, 策略搜索方法对于协作机器人应用更为合适.因为他们有能力通过参数化策略函数对策略学习问题降维. 这些算法中最有希望的是gradient and sampling-based 方法.

        Transition model对于学习算法的效率非常重要.

        目前机器人市场出现低价,适应性强的机器人. 这使得机器人更安全,更容易购买. 但这也带来一些问题:

        1. 弹性协作关节极难进行物理建模. Rethink的机器人就是个例子.
        2. 廉价的内部传感器带来很多噪声干扰. 有些机器人如UR没有力矩传感器,而是用其他方法替代.

        美国式禁忌5一11集,综合伊人久久在,香蕉视频在线观看一直看一直爽