新的数学模型：惩罚和奖励让人工智能智能体做出正确的决定

2023年06月14日由 Samoyed 发表 693917 0

在一篇新的数学论文中，Björn Lindenberg展示了如何利用人工智能中的强化学习在各种环境中进行自主决策的有效策略。可以开发奖励系统来强化正确的行为，例如找到金融工具最佳定价策略或控制机器人和网络流量。

强化学习是人工智能的一部分，其中数字决策者（称为智能体）通过与环境互动并根据其执行行动的好坏接受奖励或惩罚来学习做决策。

智能体在学习过程中通过在环境中行动并根据其行动接收反馈来获得奖励和惩罚。通过最大化奖励和最小化惩罚，人工智能逐渐学会执行理想的行为，并提高其在给定任务中的表现水平。

“我的研究重点是强化学习，其中一个智能体被放置在一个环境中。该智能体会在每一步观察环境的状态, 类似于我们人类感知周围环境的方式。例如，这个环境可能是棋盘上的位置，来自视频监控、产业数据或机器人传感器的数据。”Linnaeus University数学系数学博士Björn Lindenberg说。

强化学习训练人工智能进行自主决策。目标是开发算法和模型，帮助智能体做出最佳决策。这是通过学习算法来实现的，这些算法结合了智能体以前的经验，并随着时间的推移提高它的性能。

强化学习可以在很多领域应用，比如博弈论、机器人、财务分析和工业过程控制等。

“智能体从一系列行动选项中选择一个，比如移动一个棋子或控制一个机器人的移动。这些选择可以产生影响，例如在国际象棋中创造一个新的游戏局势，或者为机器人提供新的传感器值，”Björn Lindenberg说。

新的数学模型提高了学习过程的可靠性

在他的论文中，Björn Lindenberg开发了一个用于多智能体的深度强化学习模型，该模型可以增强学习过程并使其更加稳健和有效。他还研究了系统所需的迭代次数，即反复尝试的次数，以使系统变得稳定且表现良好。

"深度强化学习正在以同样快速的速度发展，与其他人工智能技术一样。这在很大程度上是由于硬件容量呈指数增长，也就是说，这是计算机的计算能力变得越来越强大，加上对网络架构的新见解所致，"Björn Lindenberg继续说道。

应用变得越复杂，强化学习中就越需要高级数学和深度学习。这种需求在促进对现有问题的理解和发现新算法方面是显而易见的。

Björn Lindenberg总结道：“论文中提出的方法可以被纳入各种决策性的人工智能应用中，无论我们是否意识到，这些应用程序在我们的生活中越来越普遍。”

来源：https://techxplore.com/news/2023-06-mathematical-rewards-ai-agents-decisions.html

标签：

学习强化学习人工智能应用人工智能

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 ChatGPT速成指南：2023年全面攻略

下一篇认识PanoGen：数据稀缺问题的有力解决方案

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术