Aprendizado de maquinas e ciência de dados

Inteligência Artificial tem implicações econômicas, sociais e éticas para além das questões técnicas

O desenvolvimento de redes neurais e o processo de aprendizado profundo têm sido fundamentais para ensinar os computadores a pensar (Markus Spiske/ Unsplash)

Jose Antonio de Sousa Neto*

O aprendizado de máquina (machine learning ou ML) é um ramo da inteligência artificial (IA), e é definido pelo cientista da computação e pioneiro no aprendizado de máquina Tom M. Mitchell da seguinte forma: "O aprendizado de máquina é o estudo de algoritmos de computador que permitem que os programas de computador melhorem automaticamente com a experiência". ML é uma das maneiras pelas quais esperamos alcançar a IA. O aprendizado de máquina depende do trabalho com conjuntos de dados pequenos e grandes, examinando e comparando os dados para encontrar padrões comuns e explorar nuances.

Inteligência artificial não é um conceito novo. A tecnologia está conosco há muito tempo, mas o que mudou nos últimos anos é o poder da computação, as opções de serviços baseados na nuvem e a aplicabilidade da IA em nossos trabalhos como profissionais das mais diversas áreas. Neste contexto a análise de dados se tornou um pilar e um elemento prioritário que beneficia e ao mesmo tempo gera um benefício e um desafio enorme resultante das “montanhas” de dados na ponta dos dedos. Isso inclui tudo, desde dados de rastreamento do usuário em aplicativos e sites, dados científicos relacionados ao meio ambiente, dados do mercado financeiro, dados econômicos e até mesmo dados sobre a efetividade de instituições e tantos outros. Alguns estruturados e outros não. Na verdade, o processo de data mining fornece grandes quantidades de dados, geralmente não estruturados.

Os profissionais de diferentes áreas estão cada vez mais familiarizados com a interação entre dados que buscam consolidar por meio de painéis estruturantes estes mesmos dados para, em seu objetivo final, fornece análises de pontos em comum, como médias, proporções e porcentagens. O objetivo é agregar dados para relatar um resultado, procurar um padrão e encontrar relacionamentos entre variáveis. As suposições são feitas por seres humanos e os dados são consultados para atestar esse relacionamento. Se válido, o teste pode continuar com dados adicionais. A análise de dados leva naturalmente à análise preditiva, usando dados coletados para prever o que pode acontecer. As previsões são baseadas em dados históricos e dependem da interação humana para consulta-los, validar padrões, criar e testar suposições. Neste contexto o aprendizado de máquina é uma continuação dos conceitos em torno da análise preditiva, com uma diferença fundamental: o sistema de IA é capaz de fazer suposições, testar e aprender de forma autônoma.

Na verdade, IA é uma combinação de tecnologias e o aprendizado de máquina é uma das técnicas mais importantes utilizadas, por exemplo, para o marketing “hiper-personalizado”, inclusive para o marketing político. O aprendizado de máquina da IA faz suposições, reavalia o modelo e reavalia os dados, tudo sem a intervenção de um ser humano

De forma bem sumarizada Vance Reavie coloca:

Análise de dados refere-se à revisão de dados de eventos passados para padrões.
A análise preditiva está fazendo suposições e testes com base em dados passados para prever o que / se futuro.
O aprendizado de máquina da IA analisa dados, faz suposições, aprende e fornece previsões em uma escala e profundidade de detalhes impossíveis para analistas humanos individuais.

O aprendizado de máquina, por sua vez, pode de uma maneira ampla e simplificada ser classificado em três categorias:

O "aprendizado supervisionado", em que algoritmos de aprendizados tentam modelar relacionamentos e dependências entre a saída de previsão de destino e os recursos de entrada, para que possamos prever os valores de saída para novos dados com base naqueles relacionamentos, que aprendeu com os conjuntos de dados anteriores alimentados.
O “aprendizado não supervisionado” que se constrói a partir de uma família de algoritmos usados principalmente na detecção de padrões e na modelagem descritiva. Esses algoritmos não possuem categorias ou rótulos de saída nos dados (o modelo é treinado com dados não rotulados) e são classificados normalmente como clustering algorithms e o
Aprendizagem por Reforço | Créditos: que visa usar as observações coletadas da interação com seu ambiente para realizar ações que maximizem a recompensa ou minimizem o risco. Nesse caso, o algoritmo de aprendizado por reforço (chamado de agente) aprende continuamente em seu ambiente usando a iteração. Um bom exemplo de aprendizado reforçado são os computadores que atingem o estado super-humano e derrotam os humanos em jogos de computador

O desenvolvimento de redes neurais e o processo de aprendizado profundo (deep learning) tem sido fundamental para ensinar os computadores a pensar e entender o mundo da maneira que fazemos, mantendo as vantagens inatas que eles têm sobre nós, como velocidade e precisão. O aprendizado profundo geralmente é possibilitado por redes neurais artificiais, que imitam neurônios ou células cerebrais. As redes neurais artificiais foram inspiradas por coisas que encontramos em nossa própria biologia. Os modelos de redes neurais usam princípios de matemática e ciências da computação para imitar os processos do cérebro humano, permitindo um aprendizado mais geral. Uma rede neural artificial tenta simular os processos de células cerebrais densamente interconectadas, mas, em vez de serem construídos a partir da biologia, esses neurônios são construídos a partir do código.

Como explica Paul Sciglar, as redes neurais contêm três camadas: uma camada de entrada, uma camada oculta e uma camada de saída. Essas camadas contêm milhares, às vezes milhões, de nós. As informações são alimentadas na camada de entrada. As entradas recebem um determinado peso e os nós interconectados multiplicam o peso da conexão à medida que eles viajam. Essencialmente, se a unidade de informação atingir um certo limite, poderá passar para a próxima camada. Para aprender com a experiência, as máquinas comparam saídas de uma rede neural e modificam conexões, pesos e limites com base nas diferenças entre elas. Essencialmente, ele trabalha em um sistema de probabilidade - com base nos dados fornecidos a ele, é capaz de fazer declarações, decisões ou previsões com um certo grau de certeza. A adição de um loop de feedback permite o "aprendizado". Ao detectar ou ser informado se suas decisões estão certas ou erradas, ele modifica a abordagem adotada no futuro.

Finalmente, para utilizamos o aprendizado de máquina para analisar dados (que podem ser estáticos, dinâmicos ou em estado de evolução) alguns passos são necessários:

Antes de continuarmos analisando os dados, precisamos considerar se os dados que reunimos estão corretos. Isso é conhecido como validação de dados.
Em seguida, é necessário estabelecer se as informações coletadas são adequadas para o propósito / objetivo / público-alvo e, finalmente,
Depois de garantir que os dados sejam adequados, consideramos a melhor forma de automatizar a análise destes big data.

Enfim, como o leitor pode constatar este é um assunto muito rico e amplo. Sua importância e consequências vão evidentemente muito além da área técnica com implicações econômicas, socias e éticas cuja verdadeira dimensão das consequências podemos, apesar das incontestáveis evidencias já em nosso entorno, estar subestimando tanto no seu lado promissor quanto em relação a seus riscos. De toda forma uma coisa é certa. Qualquer formação profissional mais avançada que não percorra este caminho não terá cumprido o seu papel.

*Professor da EMGE (Escola de Engenharia de Minas Gerais)

AMLEF

Pesquisar este blog

Aprendizado de maquinas e ciência de dados

Marcadores

Comentários

Postar um comentário