A narrativa do meio ambiente
Imagine por um momento que você dirige para o Uber em Nova York.
São 16:00 e é o dia antes do Dia de Ação de Graças. Você está estacionado em Wall Street, aguardando a chegada do seu próximo passageiro. Você assiste as estradas enquanto elas ficam congestionadas – pedestres, carros, ônibus e tudo – enquanto todos correm para chegar aonde precisam, o mais rápido possível.
Você deseja vencer o tráfego antes que seja tarde demais, mas há tempo para este último passeio.
Logo, alguém bate na porta do seu carro e você verifica se ela parece próxima o suficiente da foto de perfil no aplicativo. Diz que ela está indo para o aeroporto. Você a deixou entrar.
“Oi!” você se vira com um sorriso. “Terminal doméstico no aeroporto de Newark, certo?”
Ela reconhece a saudação, bastante amigável, mas parece um pouco ansiosa.
Por alguma razão, você tem um mau pressentimento sobre isso. “A que horas é o seu voo?” você pergunta com cautela.
“Faz uma hora …”
Todo objetivo tem restrições
Todos estávamos em uma situação em que um prazo se aproximava rapidamente e tivemos que escolher entre os ruins e os menos ruins. Ou, em outras palavras, mais técnicas, tivemos que maximizar nossa utilidade dentro de determinadas restrições.
No cenário acima, o objetivo principal é chegar ao aeroporto e obter um lucro valioso.
Existem algumas restrições, no entanto. Vamos considerar o tempo, o mais óbvio. Simplificando, como o voo do passageiro é em uma hora, seria melhor chegarmos antes disso.
Como podemos resolver esse problema? Talvez pudéssemos dirigir rápido para economizar tempo mas com rastreamento de veiculos, usando a faixa que passa sempre que possível. Mas isso pode ser perigoso e planejamos permanecer dentro dos limites de velocidade. Talvez possamos encontrar uma rota mais curta usando um GPS. Mas mesmo com o Google Maps e o Waze, um caminho mais curto nem sempre é o mais rápido; portanto, temos graus de incerteza.
ntão, onde traçamos a linha entre maximizar o lucro (digamos, que depende da duração e do tempo da jornada) e também otimizar a felicidade do consumidor (para que possamos manter uma classificação de cinco estrelas)?
Definindo o espaço do problema
Pode parecer que estamos complicando demais o problema, mas nós, como seres humanos, enfrentamos decisões como essa todos os dias. Geralmente, o melhor ponto de partida é definir o espaço do problema e dividi-lo em subproblemas fáceis.
Da mesma forma, o design de uma inteligência artificial apropriada deve levar em consideração os parâmetros que podem afetar sua jornada do estado inicial para o estado objetivo. Chamamos esse processo de tarefa.
A tarefa, por sua vez, possui certas especificações e propriedades. Stuart Russell e Peter Norvig, em seu livro seminal sobre inteligência artificial, chamam isso de descrição do PEAS (Desempenho, Ambiente, Atuadores, Sensores).
O desempenho avalia quão bem alcançamos o objetivo especificado. Na história acima, queremos concluir a viagem, chegar a tempo, dirigir de forma legal, permanecer em segurança com rastreador veicular, obter lucro e obter uma boa classificação. Todos esses elementos medem o desempenho de nosso trabalho dirigindo de Wall Street a Newark.
Digitar o ambiente é o peso do restante deste artigo, mas, em essência, categoriza a natureza do fenômeno externo que pode impactar nosso processo no estado do objetivo. Por exemplo, ao dirigir para o aeroporto, precisamos nos preocupar com outros veículos na estrada, pedestres nas faixas de pedestres, diferentes estradas e sinais de trânsito etc. Não estamos sozinhos no mundo, e o que os outros fazem pode nos afetar, e o que fazemos pode afetá-los.
Atuadores são os meios pelos quais agimos sobre o meio ambiente. Por exemplo, um carro possui uma buzina para alertar outras pessoas, pisca-pisca para informar sobre uma curva, um volante para realmente girar e pedais para controlar a velocidade.
E sensores são os meios pelos quais recebemos sugestões ambientais. Pode ser um sensor de proximidade que soa quando estamos muito perto de outro veículo ou entidade, um sensor de saída de faixa que nos impede de desviar e nossa tela de navegação que permite visualizar dados gerais do veículo (como temperatura do óleo, manutenção futura, estação de rádio) estamos no etc.).
Então, por que o ambiente é a maior categoria? Bem, quando se trata do estado externo do mundo, muito pode acontecer e precisamos planejar.
Vejamos as seis escalas nas quais é possível visualizar a natureza do ambiente:
Totalmente observável vs. parcialmente observável
Quão observável é um ambiente está relacionado à quantidade de informações relevantes que podemos extrair dele em um determinado momento. Por exemplo, enquanto dirigimos na cidade, podemos ver os carros à nossa frente, atrás de nós e de ambos os lados (menos pontos cegos, é claro). Também podemos avaliar a rapidez com que os outros estão dirigindo e se eles pretendem mudar de faixa ou não, usando suas velocidades relativas e indicações de pisca-pisca, respectivamente. No entanto, é provável que não possamos ver o que está acontecendo três quilômetros à frente e alguns quarteirões à direita.
Mas provavelmente não precisamos conhecer essas informações, pois elas não pertencem ao nosso ambiente imediato. No entanto, se realmente estivermos dirigindo três quilômetros à frente e alguns quarteirões à direita, poderíamos estar interessados em atualizações sobre engarrafamentos, fechamentos de estradas etc., chegando em nosso caminho.
Se tivermos todas as informações que precisamos saber presentes, nosso ambiente será totalmente observável. Esse tipo de ambiente é benéfico para a inteligência artificial, pois não precisa acompanhar nenhuma variável estranha; simplesmente recebe sugestões externas para o processamento reflexivo. Por outro lado, ter acesso a algumas, mas não a todas, informações relevantes em um dado momento cria um ambiente parcialmente observável. Nesse caso, uma inteligência artificial pode precisar acompanhar a história para prever decisões futuras.
Agente único vs. multi-agente
Um agente é qualquer entidade autônoma (um humano, um programa de computador, um robô, um animal, um carro autônomo, etc.) que pode perceber seu ambiente (via sensores) e produzir uma resposta (via atuadores). Essa resposta não precisa ser correta ou racional; é aí que entram as métricas de desempenho. Mas essas respostas são articuladas em última instância para alcançar um objetivo.
Um único agente pode ser considerado isolado. Por exemplo, se você está jogando paciência, não há nenhum segundo jogador para competir, enquanto que se você se senta em uma mesa de pôquer, outros estão envolvidos no resultado do jogo.
O pôquer, em particular, é um ambiente multi-agente totalmente competitivo. Cada pessoa na mesa procura maximizar sua própria utilidade, ou “vencer”, à custa de outras pessoas.
Que tal dirigir? As estradas também são um ambiente competitivo?
Até certo ponto, sim, mas não totalmente; existe um contrato (sua carteira de motorista) que informa que evitar colisões, seguir as regras de trânsito, usar pisca-pisca e dirigir dentro dos limites de velocidade ajuda a manter todos na estrada em segurança, incluindo você.
A quebra dessas regras serve para a competitividade e pode aumentar a utilidade temporária (por exemplo, cortar na frente de um empilhamento de saída para economizar algum tempo), mas com o risco de “conseguir uma multa” ou alguma forma de punição. As estradas são, portanto, parcialmente competitivas, mas também parcialmente cooperativas.
Agora vamos pensar em dirigir no sentido geral: um agente autônomo pode ser visto como um ambiente de agente único em vez de multi-agente?
Sim é possivel. Se, em uma estrada perfeita, assumirmos o contrato de que as pessoas tendem a dirigir com segurança, todos os outros veículos podem simplesmente ser vistos como objetos que devemos evitar. É como dizer que nosso carro é o único na estrada e que precisamos atravessar obstáculos em movimento para chegar ao nosso destino.
Em um ambiente multiagente totalmente cooperativo, é uma suposição justa a ser feita, e podemos tratá-lo como um único agente. Mas introduza competitividade e ela não se sustenta.
Determinístico vs. Estocástico
Algo que foi determinado é garantido que aconteça. As leis da física exemplificam isso: todas as outras coisas iguais: se você deixar cair uma maçã, ela cairá em direção ao centro de massa da Terra. Isso é simplesmente gravidade no trabalho.
No caso de um agente de xadrez da IA, podemos imaginá-lo no estado inicial, sem movimentos ainda. Se nosso agente fizer o primeiro movimento e decidir empurrar um peão para a frente, é garantido que, no próximo estado, esse peão não esteja em sua posição inicial.
Por outro lado, se o agente decidisse mover o peão para a frente e, se às vezes terminasse um espaço à frente, às vezes dois à frente e às vezes até exatamente onde começou, temos um certo grau de incerteza quanto ao que acontecerá. Essa aleatoriedade se refere a um ambiente estocástico ou não determinístico.
Episódico vs. seqüencial
A classificação de um ambiente como episódico ou seqüencial está relacionada a históricos de ações e utilitários de longo prazo.
Por exemplo, com um agente de xadrez, cada nova ação depende do que aconteceu anteriormente. Ou, em outras palavras, ações diferentes podem ter consequências diferentes.
Usar sua rainha para levar o cavaleiro de seu oponente pode trazer utilidade a curto prazo, mas também pode colocar sua rainha em risco no próximo movimento. Este é um ambiente seqüencial.
Um ambiente episódico, por outro lado, é aquele em que cada estado é independente um do outro. Se um policial com uma arma de radar estiver escaneando uma estrada de pista única em busca de condutores rápidos, a velocidade do carro anterior, todas as outras coisas iguais, não tem influência na velocidade do próximo. É como se cada carro que passasse na frente do policial fosse um estado atômico e separado.
A diferença entre ambientes episódicos e seqüenciais é a probabilidade condicional, em que a probabilidade de eventos separados depende uma da outra, dada alguma informação ou não.
Estático vs. dinâmico
Um ambiente estático é aquele que não muda quando um agente toma uma decisão. Por exemplo, no xadrez, seu oponente não pode fazer um movimento enquanto ainda é a sua vez. É como se a passagem do tempo fosse irrelevante: uma jogada feita em cinco segundos não é necessariamente melhor do que uma jogada em cinco minutos (supondo que estamos jogando xadrez sem relógio, é claro).
Um ambiente dinâmico, por outro lado, muda enquanto o agente delibera. Enquanto estiver dirigindo, todos os outros carros ao nosso redor também estão se movendo; alguns estão mudando de faixa, outros acelerando, outros desacelerando etc. Cada decisão que tomamos na estrada pode ser afetada pelo movimento repentino de outros veículos.
Observe a semelhança de um ambiente dinâmico com um ambiente multi-agente. A principal diferença é que, em um ambiente com vários agentes, existem oponentes que procuram diminuir nossa utilidade, mas em um ambiente dinâmico, as condições mudam, não a utilidade. Mas há certamente alguma sobreposição entre cada escala.
Discreto x contínuo
Algo discreto só pode ser separado em unidades distintas e inteiras. Por exemplo, se você jogar uma moeda, terá cara ou coroa. Não há nada no meio (por exemplo, você não pode conseguir uma moeda justa em um ângulo de 45 graus). Por outro lado, algo contínuo pode ser medido: a temperatura pode ser de 100 graus, ou mais precisamente, 100,01 graus, ou ainda mais precisamente, 100,012 graus. Podemos dividir algo contínuo em porções infinitesimais.
Um ambiente discreto com rastreamento moto, como resultado, é um com uma quantidade finita de estados. No xadrez, existem muitas maneiras pelas quais podemos organizar o tabuleiro. Como resultado, existem tantas ações que podemos tomar para alcançar esses estados.
Por outro lado, em um ambiente contínuo, nossas variáveis aleatórias podem assumir qualquer valor dentro de seus intervalos especificados (ou infinitos) e suavemente (até divisões infinitesimais).
Enquanto estiver dirigindo, não podemos acelerar instantaneamente de zero a sessenta; isso requer algum tempo. O movimento suave na mudança de velocidade é a natureza contínua de um ambiente de direção. Além disso, o ambiente contínuo se presta à modelagem baseada na física. É assim que os carros autônomos prevêem colisões com outros veículos na estrada.
Essas seis escalas são uma descrição qualitativa da classificação de um ambiente e, embora haja sobreposição entre elas, elas fornecem uma boa visão do design de agentes inteligentes, a próxima consideração importante do espaço de problemas da IA.
Ao fazer isso, pode ser importante olhar para uma sétima escala:
Conhecido vs. Desconhecido
O mais “misterioso” de todos os tipos, conhecido versus desconhecido, descreve até que ponto o projetista do agente inteligente conhece o ambiente.
Sem pular muito para a psicologia, ciência cognitiva e filosofia, vamos considerar o bebê humano. Nasce neste mundo com certos reflexos, mas não sabe dirigir um carro, jogar xadrez, quais são as leis, o que é a sociedade humana! Ele aprende essas regras e informações através da experiência e da interação com outras pessoas. Este é o fundamento de um ambiente desconhecido.
Da mesma forma, com um carro autônomo, nós, como programadores, engenheiros e projetistas, não podemos testá-lo com todas as estradas existentes no mundo. A inteligência artificial que damos ao carro deve ser auto-suficiente o suficiente para usar algum conhecimento básico e arraigado como base para idéias futuras. Essas idéias então se prestam a novas regras e novos entendimentos.
Em particular, podemos testar nosso carro autônomo na cidade de Nova York, mas se o tivermos desenvolvido para estradas americanas, ele poderá dirigir para qualquer lugar do país sem problemas.
O aprendizado profundo é frequentemente o mecanismo que usamos para entender ambientes desconhecidos e é o cerne da pesquisa em andamento em inteligência artificial.
Mas, usando esse entendimento introdutório de ambientes, agora você deve ser capaz de classificar problemas gerais em um espaço que informa quais elementos devem ser considerados ao procurar uma solução. Feliz aprendizado!
Revisitando a narrativa
Dirigindo em um turbilhão: um ambiente parcialmente observável, multiagente, estocástico, seqüencial, dinâmico e contínuo.
Droga, você pensa. Agora estou estressado tanto quanto ela. Por que as pessoas não podem planejar suas viagens de acordo?
Mas você não pode dizer isso para ela. “Ok, uma hora parece bom”, você mente sem rodeios.
Rapidamente, você alterna para o aplicativo Google Maps para traçar o melhor caminho. O caminho é principalmente vermelho e laranja, nunca é um bom sinal, mas será necessário. Você sai para a rua.
O tráfego se move de maneira relativamente tranquila, mas depois de alguns instantes, sua passageira limpa a garganta e pergunta: “Dia bem lento, hein? Você acha que o tráfego perto do aeroporto é tão ruim?
“Bem, o mapa parece um pouco laranja lá, então acho que sim … mas é um pouco distante para ter certeza. Veja bem, estamos em um ambiente parcialmente observável e, embora o GPS nos dê uma visão geral, no momento imediato nossas decisões se baseiam principalmente no que está acontecendo ao nosso redor.
Para esclarecer, todo mundo aqui está tentando chegar a algum lugar rapidamente. Alguns em suas casas, outros em aeroportos como nós, outros em outros lugares no mapa. Mas todos nesta estrada em particular têm acesso apenas aos mesmos caminhos nas proximidades. Portanto, minimizar o tempo gasto introduz um senso parcial de competição nesse ambiente multiagente e parcialmente observável. ”
“Oh, tudo bem …”
Em breve, você entra na estrada e o tráfego começa a melhorar. Seu passageiro deve chegar a tempo. Você entra na faixa esquerda e usa o acelerador de estado contínuo do carro para acelerar a jornada para a meta.
O passageiro percebe que o velocímetro está ligado e menciona: “Não preciso chegar tão rápido ao aeroporto”.
Sim, você pensa, mas ela tem razão. Você diminui a velocidade e retorna à faixa da direita. De qualquer forma, dirigir o carro muito rápido introduz a possibilidade de a bomba de combustível não conseguir acompanhar. Em um carro mais velho como esse, você não quer transformar o pedal do acelerador em uma variável de estado estocástico.
Além disso, não seria bom conseguir um ingresso; nesse ambiente, uma sequência comum que segue a velocidade excessiva está sendo interrompida…
Você chega a Newark a tempo, surpreendentemente, e chega à zona de partida. Ao decidir em qual local deixar o passageiro, outro carro passa pela frente para reivindicar o primeiro espaço vazio.
“Uau, alguém está com pressa!” o passageiro exclama. “Mas você pode me deixar aqui mesmo; muito obrigado pela carona. ”
“Você é muito bem-vindo.” Você estaciona o carro e abre as portas.
Ela sai com a bagagem, mas se vira para se despedir. “Eu acho que você não pode deliberar por muito tempo para qual vaga de estacionamento você quer, certo? O ambiente também é bastante dinâmico! ”