banner

Blog

Jan 12, 2024

Los juegos de azar se encuentran con la física cuántica

Por Computación inteligente23 de agosto de 2023

Los científicos han introducido un esquema de aprendizaje por refuerzo fotónico, pasando del problema estático de los bandidos con múltiples brazos a un entorno dinámico, utilizando la interferencia cuántica de fotones para mejorar la toma de decisiones. Desarrollaron un algoritmo de aprendizaje Q bandido modificado, probado en un mundo de cuadrícula de 5 × 5, con el objetivo de aprender con precisión el valor Q óptimo para cada par estado-acción mientras se equilibra la exploración y la explotación.

¿Cómo maximiza un jugador las ganancias de una fila de máquinas tragamonedas? Esta pregunta inspiró el “problema de los bandidos con múltiples brazos”, una tarea común en el aprendizaje por refuerzo en la que los “agentes” toman decisiones para ganar recompensas. Recientemente, un equipo internacional de investigadores, dirigido por Hiroaki Shinkawa de la Universidad de Tokio, introdujo un método avanzado de aprendizaje por refuerzo fotónico que pasa del problema estático del bandido a un entorno dinámico más complejo. Sus hallazgos fueron publicados recientemente en la revista Intelligent Computing.

El éxito del plan depende tanto de un sistema fotónico para mejorar la calidad del aprendizaje como de un algoritmo de apoyo. Al analizar una “posible implementación fotónica”, los autores desarrollaron un algoritmo bandit Q-learning modificado y validaron su eficacia mediante simulaciones numéricas. También probaron su algoritmo con una arquitectura paralela, donde múltiples agentes operan al mismo tiempo, y descubrieron que la clave para acelerar el proceso de aprendizaje paralelo es evitar decisiones conflictivas aprovechando la interferencia cuántica de los fotones.

Aunque el uso de la interferencia cuántica de fotones no es nuevo en este campo, los autores creen que este estudio es "el primero en conectar la noción de toma de decisiones cooperativa fotónica con Q-learning y aplicarlo a un entorno dinámico". Los problemas de aprendizaje por refuerzo generalmente se establecen en un entorno dinámico que cambia con las acciones de los agentes y, por tanto, son más complejos que el entorno estático de un problema de bandidos.

El agente elige una de las cuatro acciones indicadas por flechas negras, recibe una recompensa y pasa a la siguiente celda. Si el agente llega a cualquiera de las dos celdas especiales A o B, la recompensa es grande y el agente salta a otra celda, como lo muestran las flechas rojas. Crédito: Hiroaki Shinkawa et al.

Este estudio se centra en un mundo en cuadrícula, una colección de células que contienen diferentes recompensas. Cada agente puede subir, bajar, izquierda o derecha y obtener una recompensa según su movimiento y ubicación actual. En este entorno, el próximo movimiento del agente está determinado enteramente por su movimiento y ubicación actuales.

Las simulaciones de este estudio utilizan una cuadrícula de 5 × 5 celdas; cada celda se llama "estado", cada movimiento realizado por un agente en cada paso de tiempo se llama "acción" y la regla que determina cómo un agente selecciona una determinada acción en cada estado se llama "política". El proceso de toma de decisiones está diseñado como un escenario de problema de bandidos, donde cada par estado-acción se considera como una máquina tragamonedas y los cambios en el valor Q (los valores de los pares estado-acción) se consideran recompensas.

A diferencia de los algoritmos básicos de Q-learning, que generalmente se centran en encontrar el camino óptimo para maximizar las recompensas, el algoritmo bandit Q-learning modificado tiene como objetivo aprender el valor Q óptimo para cada par estado-acción en todo el entorno, de manera eficiente y precisa. Por lo tanto, es esencial que un agente mantenga un buen equilibrio entre “explotar” los pares familiares con valores altos para un aprendizaje más rápido y “explorar” los pares no frecuentados en busca de valores potencialmente más altos. Como política se utiliza el algoritmo softmax, un modelo popular que destaca en este tipo de equilibrio.

La prioridad futura de los autores es diseñar un sistema fotónico que respalde la toma de decisiones libre de conflictos entre al menos tres agentes, con la esperanza de que su incorporación al esquema propuesto ayude a los agentes a evitar tomar decisiones conflictivas. Mientras tanto, están planeando desarrollar algoritmos que permitan a los agentes actuar continuamente y aplicar su algoritmo bandit Q-learning a tareas de aprendizaje por refuerzo más complicadas.

Referencia: “Enfoque bandido para el Q-Learning paralelo sin conflictos en vista de la implementación fotónica” por Hiroaki Shinkawa, Nicolas Chauvet, André Röhm, Takatomo Mihana, Ryoichi Horisaki, Guillaume Bachelier y Makoto Naruse, 25 de julio de 2023, Intelligence Computing.DOI: 10.34133/icomputación.0046

El estudio fue financiado por la Agencia Japonesa de Ciencia y Tecnología y la Sociedad Japonesa para la Promoción de la Ciencia.

COMPARTIR