Skip to content

FelipeGaldino/RL-OpenAiGym-Taxy-v3

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 

Repository files navigation

Aprendizado por reforço

RL

A Aprendizagem Por Reforço é o treinamento de modelos de aprendizado de máquina para tomar uma sequência de decisões. O agente aprende a atingir uma meta em um ambiente incerto e potencialmente complexo. No aprendizado por reforço, o sistema de inteligência artificial enfrenta uma situação. O computador utiliza tentativa e erro para encontrar uma solução para o problema. Para que a máquina faça o que o programador deseja, a inteligência artificial recebe recompensas ou penalidades pelas ações que executa. Seu objetivo é maximizar a recompensa total.

Embora o Cientista de Dados defina a política de recompensa – isto é, as regras do jogo – ele não dá ao modelo nenhuma dica ou sugestão de como resolver o jogo. Cabe ao modelo descobrir como executar a tarefa para maximizar a recompensa, começando com testes totalmente aleatórios e terminando com táticas sofisticadas. Ao alavancar o poder da pesquisa e de muitas tentativas, o aprendizado por reforço é atualmente a maneira mais eficaz de sugerir a criatividade da máquina. Ao contrário dos seres humanos, a inteligência artificial pode reunir experiência de milhares de jogos paralelos se um algoritmo de aprendizado por reforço for executado em uma infraestrutura de computador suficientemente poderosa.

OpenAI

OpenAi

O OpenAI é um laboratório de pesquisa de inteligência geral artificial com sede em San Francisco, Califórnia.

OpenAI Gym

OpenAIGym

  • Github - Repositorio Oficial.

OpenAI Gym é um kit de ferramentas para desenvolver e comparar algoritmos de aprendizado por reforço. Ele oferece suporte a agentes de ensino, desde caminhadas até jogos como Pong ou pinball .

Taxy-V3

Existem 4 locais (rotulados com letras diferentes) e seu trabalho é pegar o passageiro em um local e deixá-lo em outro. Você recebe +20 pontos por uma desistência bem-sucedida e perde 1 ponto para cada passo de tempo necessário. Também há uma multa de 10 pontos por ações ilegais de retirada e entrega.

Taxy-V3

Notebook

  • Neste repositorio esta o notebook com a explicação passo-a-passo de como implementar um ambiente do OpenAiGym e utiliar o Q-Learning para treinar dentro do Ambiente.

Autor

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published