A Reinforcement Learning Method for Environments with Stochastic Variables: Post-Decision Proximal Policy Optimization with Dual Critic Networks

Felizardo, Leonardo Kanashiro; Fadda, Edoardo; Brandimarte, Paolo; Del-Moral-Hernandez, Emilio; Nascimento, Mariá Cristina Vasconcelos

doi:10.1109/ijcnn64981.2025.11227565

This paper presents Post-Decision Proximal Policy Optimization (PDPPO), a novel variation of the leading deep reinforcement learning method, Proximal Policy Optimization (PPO). The PDPPO state transition process is divided into two steps: a deterministic step resulting in the post-decision state and a stochastic step leading to the next state. Our approach incorporates post-decision states and dual critics to reduce the problem’s dimensionality and enhance the accuracy of value function estimation. Lot-sizing is a mixed integer programming problem for which we exemplify such dynamics. The objective of lot-sizing is to optimize production, delivery fulfillment, and inventory levels in uncertain demand and cost parameters. This paper evaluates the performance of PDPPO across various environments and configurations. Notably, PDPPO with a dual critic architecture achieves nearly double the maximum reward of vanilla PPO in specific scenarios, requiring fewer episode iterations and demonstrating faster and more consistent learning across different initializations. On average, PDPPO outperforms PPO in environments with a stochastic component in the state transition. These results support the benefits of using a postdecision state. Integrating this post-decision state in the value function approximation leads to more informed and efficient learning in high-dimensional and stochastic environments. Index Terms—Reinforcement learning, Post-decision variables, Sequential decision making, Proximal policy optimization, Stochastic Discrete Lot-sizing, Model-based

A Reinforcement Learning Method for Environments with Stochastic Variables: Post-Decision Proximal Policy Optimization with Dual Critic Networks / Felizardo, Leonardo Kanashiro; Fadda, Edoardo; Brandimarte, Paolo; Del-Moral-Hernandez, Emilio; Nascimento, Mariá Cristina Vasconcelos. - (2025), pp. 1-8. ( 2025 International Joint Conference on Neural Networks (IJCNN) Roma (ITA) 30 June - 5 July 2025) [10.1109/ijcnn64981.2025.11227565].

A Reinforcement Learning Method for Environments with Stochastic Variables: Post-Decision Proximal Policy Optimization with Dual Critic Networks

Felizardo, Leonardo Kanashiro;Fadda, Edoardo;Brandimarte, Paolo;Del-Moral-Hernandez, Emilio;Nascimento, Mariá Cristina Vasconcelos

2025

Abstract

Scheda breve

Scheda completa

Scheda completa (DC)

Anno del prodotto

2025

Appare nelle tipologie

4.1 Contributo in Atti di convegno

File in questo prodotto:

File	Dimensione	Formato
A_Reinforcement_Learning_Method_for_Environments_with_Stochastic_Variables_Post-Decision_Proximal_Policy_Optimization_with_Dual_Critic_Networks.pdf accesso riservato Tipologia: 2a Post-print versione editoriale / Version of Record Licenza: Non Pubblico - Accesso privato/ristretto Dimensione 1.08 MB Formato Adobe PDF Visualizza/Apri Richiedi una copia	1.08 MB	Adobe PDF	Visualizza/Apri Richiedi una copia
2504.05150v2.pdf accesso aperto Tipologia: 2. Post-print / Author's Accepted Manuscript Licenza: Pubblico - Tutti i diritti riservati Dimensione 461.87 kB Formato Adobe PDF Visualizza/Apri	461.87 kB	Adobe PDF	Visualizza/Apri

Pubblicazioni consigliate

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11583/3005268

PORTO @ Archivio Istituzionale della Ricerca

A Reinforcement Learning Method for Environments with Stochastic Variables: Post-Decision Proximal Policy Optimization with Dual Critic Networks

Felizardo, Leonardo Kanashiro;Fadda, Edoardo;Brandimarte, Paolo;Del-Moral-Hernandez, Emilio;Nascimento, Mariá Cristina Vasconcelos

2025

Abstract

Scheda breve Scheda completa Scheda completa (DC)

Pubblicazioni consigliate

Informazioni

Conferma cancellazione

Scheda breve

Scheda completa

Scheda completa (DC)