A Aprendizagem Por Reforço é o treinamento de modelos de aprendizado de máquina para tomar uma sequência de decisões. O agente aprende a atingir uma meta em um ambiente incerto e potencialmente complexo. No aprendizado por reforço, o sistema de inteligência artificial enfrenta uma situação. O computador utiliza tentativa e erro para encontrar uma solução para o problema. Para que a máquina faça o que o programador deseja, a inteligência artificial recebe recompensas ou penalidades pelas ações que executa. Seu objetivo é maximizar a recompensa total.
Embora o Cientista de Dados defina a política de recompensa – isto é, as regras do jogo – ele não dá ao modelo nenhuma dica ou sugestão de como resolver o jogo. Cabe ao modelo descobrir como executar a tarefa para maximizar a recompensa, começando com testes totalmente aleatórios e terminando com táticas sofisticadas. Ao alavancar o poder da pesquisa e de muitas tentativas, o aprendizado por reforço é atualmente a maneira mais eficaz de sugerir a criatividade da máquina. Ao contrário dos seres humanos, a inteligência artificial pode reunir experiência de milhares de jogos paralelos se um algoritmo de aprendizado por reforço for executado em uma infraestrutura de computador suficientemente poderosa.
O OpenAI é um laboratório de pesquisa de inteligência geral artificial com sede em San Francisco, Califórnia.
- OpenAI - Site Oficial.
- Github - Repositorio Oficial.
OpenAI Gym é um kit de ferramentas para desenvolver e comparar algoritmos de aprendizado por reforço. Ele oferece suporte a agentes de ensino, desde caminhadas até jogos como Pong ou pinball .
- OpenAi Gym - Site Oficial.
Existem 4 locais (rotulados com letras diferentes) e seu trabalho é pegar o passageiro em um local e deixá-lo em outro. Você recebe +20 pontos por uma desistência bem-sucedida e perde 1 ponto para cada passo de tempo necessário. Também há uma multa de 10 pontos por ações ilegais de retirada e entrega.
- Neste repositorio esta o notebook com a explicação passo-a-passo de como implementar um ambiente do OpenAiGym e utiliar o Q-Learning para treinar dentro do Ambiente.
- Felipe Galdino - Github - FelipeGaldino