MOOC 人工智能原理与实践-中山大学 中国大学慕课答案.docx
《MOOC 人工智能原理与实践-中山大学 中国大学慕课答案.docx》由会员分享,可在线阅读,更多相关《MOOC 人工智能原理与实践-中山大学 中国大学慕课答案.docx(32页珍藏版)》请在文库网上搜索。
1、 MOOC 人工智能原理与实践-中山大学 中国大学慕课答案强化学习基本概念-随堂测验1、问题:强化学习问题模型包含以下哪些项目选项:A、状态空间B、动作策略C、奖励信号D、以上都是正确答案:【以上都是】课后习题单元测验 11、问题:由数字 5,6,7,9 可以组成多少个没有重复数字的三位数选项:A、9B、15C、24D、48正确答案:【24】2、问题:以下属于生成模型的是选项:A、svmB、随机森林C、隐马尔科夫模型 HMMD、逻辑回归正确答案:【隐马尔科夫模型 HMM】3、问题:下列哪项关于模型能力的描述是正确的选项:A、隐藏层层数增加,模型能力一定增加B、Dropout 的比例增加,模型能
2、力增加C、学习率增加,模型能力增加D、都不正确正确答案:【都不正确】 4、问题:某城市发生了一起汽车撞人逃跑事件,该城市只有两种颜色的车,蓝20%绿 80%,事发时现场有一个目击者,他指证是蓝车,但是根据专家在现场分析,当时那种条件能看正确的可能性是 80%,那么,肇事的车是蓝车的概率是多少?选项:A、80%B、84%C、50%D、64%正确答案:【50%】5、问题:以下选项中哪项不能有效解决过拟合?选项:A、增加样本数量B、通过特征选择减少特征数量C、训练更多迭代次数D、采用正则化正确答案:【训练更多迭代次数】6、填空题:LR 和 SVM 都可以处理分类问题,而且一般都用于处理_问题正确答案
3、:【二分类】7、填空题:岭回归可以用于解决模型_问题正确答案:【过拟合】8、填空题:L1 范数的定义为_。正确答案:【向量各元素绝对值之和】9、填空题:K-NN 算法在_的情况下效果最好正确答案:【样本较少但是典型性好】10、填空题:机器学习根据是否使用标签信息,可以分为_两大类正确答案:【监督学习和无监督学习】单元测验1、问题:关于 Qlearning,以下说法正确的是选项:A、Qlearning 是一种 on policy 算法B、Qlearning 是基于策略梯度的算法C、Qlearning 是基于模型的方法D、以上都不对正确答案:【以上都不对】 2、问题:Qlearning 通过()存
4、储 Q 值选项:A、Q tableB、神经网络C、近似函数D、以上都不对正确答案:【Q table】3、问题:关于神经网络,正确的是选项:A、神经网络是一种万能近似函数B、神经网络不能解决空间问题C、神经网络不能用于强化学习D、以上都不对正确答案:【神经网络是一种万能近似函数】4、问题:关于 SARSA 算法,以下说法正确的是选项:A、SARSA 是 on policy 算法B、SARSA 是基于模型的算法C、SARSA 是基于策略梯度的算法D、以上都不对正确答案:【SARSA 是 on policy 算法】5、问题:Q learning 和 SARSA 相比,其不同之处在于选项:A、SARS
5、A 是 on policy 算法,Qlearning 是 off policy 算法B、SARSA 比 Q learning 更高效C、Qlearning 能处理连续动作,SARSA 不行D、以上都不对正确答案:【SARSA 是 on policy 算法,Qlearning 是 off policy 算法】6、问题:DQN 是一种()选项:A、能处理连续动作问题的算法B、on-policy 算法C、off-policy 算法D、以上都不对正确答案:【off-policy 算法】7、问题:DQN 中,通过()保存 Q 值选项: A、神经网络B、Q 表C、近似函数D、以上都不对正确答案:【神经网络
6、】8、问题:Q learning 和 DQN 的区别在于()选项:A、Qlearning 能处理连续动作,DQN 不能B、Qlearning 是 off-policy,DQN 是 on-policyC、DQN 使用了神经网络和经验回放D、以上都不对正确答案:【DQN 使用了神经网络和经验回放】9、问题:在 DQN 算法中,共有()个神经网络选项:A、1B、2C、3D、4正确答案:【2】10、问题:DQN 算法的优势不正确的是选项:A、避免穷举计算B、提高时间效率C、提高空间效率D、以上都不对正确答案:【以上都不对】11、问题:关于 DQN 的优点,以下错误的是选项:A、通用性强B、端到端的训练
7、C、容易获取各种训练样本D、以上都不对正确答案:【以上都不对】12、问题:关于 DQN 的缺点,以下正确的是选项:A、不能用于连续动作控制B、不能进行长期记忆的训练 C、训练效率低下D、以上都不对正确答案:【以上都不对】13、问题:关于经验回放,以下说法错误的是选项:A、经验回放分布是非静态分布B、不能用连续状态动作作为代表样本C、训练时是随机抽取样本D、以上都不对正确答案:【以上都不对】14、问题:使用两个 Q 网络进行学习的好处选项:A、避免算法不收敛B、加速算法训练速度C、提升强化学习性能D、以上都不对正确答案:【避免算法不收敛】15、问题:关于策略梯度的优点,以下描述不正确的是选项:A
8、、能表示随机策略B、能输出连续动作C、训练更稳定D、以上都不对正确答案:【以上都不对】16、问题:关于策略梯度的描述,以下正确的是选项:A、不需要进行值函数更新B、不能直接输出策略C、训练时更不稳定D、以上都不对正确答案:【不需要进行值函数更新】17、问题:关于 Qlearning 和策略梯度,以下说法正确的是选项:A、Qlearning 有时无法得到最优B、策略梯度学习的策略优于 QlearningC、策略梯度只能输出稳定策略 D、以上都不对正确答案:【Qlearning 有时无法得到最优】18、问题:进行梯度策略的优化技巧有哪些选项:A、增加 baselineB、分配合适的分数C、增加优势
9、函数D、以上都是正确答案:【以上都是】19、问题:对于策略梯度,MC 和 TD 的区别在于选项:A、MC 更新频率更低B、TD 更新频率为一个动作结束后C、两者的目标一致D、以上都是正确答案:【以上都是】20、问题:关于 Reinforce 算法过程,下面说法正确的是选项:A、基于确定性策略输出每个动作的概率B、通过采样的方法选择动作与环境进行交互C、计算损失函数D、以上都是正确答案:【以上都是】21、问题:关于 DPG 算法,下面说法正确的是选项:A、输出随机策略B、输出确定策略C、共有 3 个神经网络D、以上都不正确正确答案:【输出确定策略】22、问题:关于 DPG 的高估计问题,下面说法
10、正确的是选项:A、通过优势函数减缓过估计问题B、通过增加神经网络减缓过估计问题C、通过减少神经网络减缓过估计问题D、以上都不正确正确答案:【通过优势函数减缓过估计问题】 23、问题:关于 DDPG 算法,下面说法正确的是选项:A、包含 actor critic 两个部分B、共有 4 个神经网络C、输出确定性策略D、以上都正确正确答案:【以上都正确】24、问题:关于 trpo,下列说法正确的是选项:A、保证 RL 算法单调收敛B、是一种策略梯度算法C、TRPO 使用了重要性采样D、以上都对正确答案:【以上都对】25、问题:关于 TRPO 的优势,下列说法正确的是选项:A、TRPO 对超参数不敏感
11、B、TRPO 训练过程稳定C、TRPO 样本效率更高D、以上都对正确答案:【以上都对】26、问题:关于策略梯度,下列说法正确的是选项:A、对超参数敏感B、训练过程波动很大C、样本效率低下D、以上都对正确答案:【以上都对】27、问题:关于 PPO,下列说法正确的是选项:A、本质上是一种 actor-critic 算法B、参数更新速度快C、样本效率更高D、以上都对正确答案:【以上都对】28、问题:关于 PPO,下列说法正确的是选项: A、PPO 是一种 off policy 的算法B、PPO 是一种 on policy 的算法C、PPO 是一种基于值函数的方法D、以上都对正确答案:【PPO 是一种
12、 on policy 的算法】单元测验1、问题:多智能体强化学习的任务类型包括选项:A、完全合作类型B、完全竞争类型C、合作竞争类型D、以上都正确正确答案:【以上都正确】2、问题:关于多智能体信息共享,以下说法不正确的是选项:A、扩展状态空间B、学习相同动作获得的奖励的变化C、分享动作幕或专家经验D、通过 Q 值共享策略正确答案:【学习相同动作获得的奖励的变化】3、问题:关于简单平均 Q 值方法,以下说法不正确的是选项:A、所有智能体学习到相同的策略B、该方法假设所有智能体的动作对整体所作贡献相同C、该方法对所有智能体而言是公平的D、该方法由于处理全局状态信息,因而收敛速度较慢正确答案:【该方
13、法对所有智能体而言是公平的】4、问题:关于 IQL,以下说法不正确的是选项:A、IQL 不能保证收敛B、每个智能体独立学习策略,与其他智能体没有信息交互C、简单平均 Q 值方法处理的是全局状态,IQL 处理的是局部观察D、从每个智能体的角度看,环境依然是静态的正确答案:【从每个智能体的角度看,环境依然是静态的】5、问题:关于多智能体学习所面临的挑战,以下说法不正确的是选项: A、智能体能够根据仅自身的局部观察推断出当前所处状态B、单个智能体无法站在全局的角度去观察并决策C、智能体都在学习,策略不断变化,选择的动作也随之变化,导致环境随时发生不可预测的变化D、不同智能体的动作对整体的贡献难以确定
14、正确答案:【智能体能够根据仅自身的局部观察推断出当前所处状态】6、问题:关于集中式训练分布式执行,以下说法不正确的是选项:A、critic 处理全局信息,actor 处理局部观察B、在训练和执行的时候都需要用到 criticC、该框架相当于通过 critic 来与其他智能体交换信息D、该框架难以应用于现实环境,因为现实任务场景中难以获得全局状态信息正确答案:【在训练和执行的时候都需要用到 critic】7、问题:将 DDPG 扩展到多智能体环境,MADDPG 所作改进包括选项:A、使用集中式训练分布式执行框架B、改进经验回放记录的数据C、利用策略集合效果优化D、以上都包括正确答案:【以上都包括
15、】8、问题:关于 MADDPG,以下说法不正确的是选项:A、MADDPG 中各个智能体能共享同一个 actorB、MADDPG 中各个智能体能共享同一个 criticC、critic 在更新时只需要知道全局状态信息,不需要知道其他智能体的动作信息D、MADDPG 中各个智能体最终学习到的是确定性策略正确答案:【critic 在更新时只需要知道全局状态信息,不需要知道其他智能体的动作信息】9、问题:关于 QMIX,以下说法不正确的是选项:A、QMIX 假设全局 Q 值和局部 Q 值满足单调约束关系B、在满足约束条件后,单个智能体的局部最优动作组合即为全局最优动作C、QMIX 不属于集中式训练分布
16、式执行框架D、QMIX 只能应用于离散动作任务正确答案:【QMIX 不属于集中式训练分布式执行框架】10、问题:关于 QMIX 的混合网络,以下说法正确的是选项: A、混合网络需要根据当前全局状态信息计算全局 Q 值的分解权重B、每个智能体都有自己的混合网络C、智能体在执行时需要用到混合网络D、在更新混合网络时可以使用智能体的局部奖励函数正确答案:【混合网络需要根据当前全局状态信息计算全局 Q 值的分解权重】人脑神经网络和人工神经网络-随堂测验1、问题:人工神经网络是一种模拟生物神经网络的数学模型,能够拟合所有的函数选项:A、正确B、错误正确答案:【正确】2、问题:当前人工神经网络的神经元可以
17、无限叠加选项:A、正确B、错误正确答案:【错误】人工神经元-随堂测验1、问题:神经网络模型(Neural Network)因受人类大脑的启发而得名,神经网络由许多神经元(Neuron)组成,每个神经元接受一个输入,对输入进行处理后给出一个输出,如下图所示。请问下列关于神经元的描述中,哪一项是正确的?选项:A、每个神经元可以有多个输入和一个输出B、每个神经元可以有一个输入和多个输出C、每个神经元可以有多个输入和多个输出D、上述都不正确正确答案:【上述都不正确】2、问题:下列哪一项在神经网络中引入了非线性选项:A、随机梯度下降B、ReLU 激活函数C、卷积函数D、以上都不正确正确答案:【ReLU
18、激活函数】前馈神经网络-随堂测验 1、问题:在前馈神经网络中,每个神经元只和前一层的神经元相连。选项:A、正确B、错误正确答案:【正确】2、问题:正向传播的基本流程包括:输入层,隐藏层,激活层和输出层选项:A、正确B、错误正确答案:【错误】课后习题多层神经网络的参数学习-随堂测验1、问题:单层感知器最大的缺陷是它只能解决线性可分的分类模式问题,要增强网络的分类能力唯一的方法是采用多层网络结构,与单层感知器相比较,下面()不是多层网络所有的特点。选项:A、具有独特的学习算法B、含有一层或多层隐藏单元C、激活函数采用可微的函数D、神经元的数目可以达到很大正确答案:【具有独特的学习算法】2、问题:对
19、于一个多层神经网络,可以采用反向传播算法来迭代地更新网络中神经元的参数。选项:A、正确B、错误正确答案:【正确】梯度下降方法-随堂测验1、问题:批量梯度下降法是对随机梯度下降法的改良,能够更稳定地更新神经元参数选项:A、正确B、错误正确答案:【正确】 2、问题:通过链式法则,神经网络可以使用反向梯度传播来更新参数选项:A、正确B、错误正确答案:【正确】反向传播算法-随堂测验1、问题:BP 算法适合用于多层神经网络,它建立在梯度下降算法的基础上。选项:A、正确B、错误正确答案:【正确】2、问题:误差反向传播算法主要由两个环节,即激励传播和权重更新,反复循环迭代。选项:A、正确B、错误正确答案:【
20、正确】课后习题多机器人集群控制-多机器人集群-随堂测验1、问题:相比于单智能体系统,强化学习应用在多智能体系统中会遇到哪些问题和挑战?选项:A、环境的不稳定性:智能体在做决策的同时,其他智能体也在采取动作;环境状态的变化与所有智能体的联合动作相关B、智能体获取信息的局限性:不一定能够获得全局的信息,智能体仅能获取局部的观测信息,但无法得知其他智能体的观测信息、动作和奖励等信息;C、个体的目标一致性:各智能体的目标可能是最优的全局回报;也可能是各自局部回报的最优;D、可拓展性:在大规模的多智能体系统中,就会涉及到高维度的状态空间和动作空间,对于模型表达能力和真实场景中的硬件算力有一定的要求。正确
21、答案:【环境的不稳定性:智能体在做决策的同时,其他智能体也在采取动作;环境状态的变化与所有智能体的联合动作相关#智能体获取信息的局限性:不一定能够获得全局的信息,智能体仅能获取局部的观测信息,但无法得知其他智能体的观测信息、动作和奖励等信息;#个体的目标一致性:各智能体的目标可能是最优的全局回报;也可能是各自局部回报的最优;#可拓展性:在大规模的多智能体 系统中,就会涉及到高维度的状态空间和动作空间,对于模型表达能力和真实场景中的硬件算力有一定的要求。】多机器人集群控制- 多智能体信息融合-随堂测验1、问题:多智能体间关系包括绝对合作、绝对竞争、中立三类关系选项:A、正确B、错误正确答案:【正
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- MOOC答案 中国大学慕课答案 MOOC