Confira !!
O Machine Learning, também chamado de Aprendizegem de Máquina é um sub camp da Ciência da Computação que surgiu com a evolução do estudo de reconhecimento de padrões e da teoria de aprendizado computacional em IA.
O Aprendizado em Machine Learning
As tarefas de aprendizado de máquina são classificadas em 3 categorias , são elas:
- Aprendiado supervisionado
- Aprendizado não Supervisdionado
- Aprendizado por Reforço
Aprendizado supervisionado
Nesse aprendizado são apresentadas ao computador exemplos de entradas e saídas desejadas que são fornecidas por um computador. Objetivando o mapeamento das saídas.
Aprendiado Não Supervisoinado
O algorítrimo aprende sozinho sem supervisão. Esse tipo de aprendizado pode ser um objetivo em si mesmo (descobrir novos padrões nos dados) ou um meio para atingir um fim.
Aprendizado por Reforço
Nesse aprendizado uma computador irá interagir com uma ambiente dinâmico onde um programa deverá desempenhar um determinado objetivo , e será fornecido ao programa um feedback em relação as premiações e punições em quanto se navega no espaço do problema .
Um exemplo de aprendizado por reforço é o de aprender a jogar um game jogandoo contra um oponente.
As razões para a dificuldade em se aprender Machine Learning:
- O Machine Learning é um software que aprende por si só (auto aprendizagem).
- Ainda existe uma falta de material didático e cursos .
Para que apessoa aprenda Machine Learning é fundamental possuir boas habilidades de codificação e matemática, além de conhecer profundamente vários algorítimos como:
- Árvore de Decisão
- Classificação Naïve Bayes
- Regressão Linear de Mínimos Quadrados
- Regressão logística
- Support Vector Machine (SVM)
- Ensemble Methods
- Algorítimos de Agrupamento (Clustering)
- Decomposição em valores singulares (SVD)
- Análise de Componentes Principais (PCA)
- Análise de componentes independentes (IAC)
1- Árvore de Decisão
A árvore de decisão é uma ferramenta de apoio que irá usar um gráfico ou modelo de decisões e as suas possiveis consequências o que inclui os resultados de ventos fortuitos , custos de utilidade e recuros.
Árvore de Decisão
2- Classificação Naïve Bayes
São uma família de classificadores probabilísticos, baseadas na aplicação de Bayes que é "um teorema com forte independência entre as características ", A imagem abaixo é uma equação – em que P (A| B) é a probabilidade posterior, P (B|A) é a probabilidade, P (A) é a probabilidade prévia e P (B) é preditor de probabilidade prévia.
Classificação Naïve Bayes
Exemplos reais dessa equação:
- Para marcar um e-mail como spam ou não spam
- Classificar um artigo de notícias sobre tecnologia, política ou esportes
- Verificar um pedaço de texto expressando emoções positivas ou negativas
- Usado para software de reconhecimento facial
3- Regressão Linear de Mínimos Quadrados
Caso você já tenha estudado estatística, você já oviu falar em regressões lineares , o método de mínimos quadrados é um método para a realização de uma regressão linear . Pensamos em uma regressão linear como sendo uma tarefa de encaixar uma linha reta através de um conjunto de pontos. Existem várias estratégias possíveis para isso e a de “mínimos quadrados comuns” é assim: você pode desenhar uma linha e, em seguida, para cada um dos pontos de dados, medir a distância vertical entre o ponto e a linha e somá-los. A linha ajustada seria aquela em que esta soma de distâncias é a menor possível. Confira a imagem abaixo.
Regressão Linear de Mínimos Quadrados
O Linear refere-se ao tipo de modelo que você está usando para ajustar os dados, enquanto os mínimos quadrados refere-se ao tipo de métrica de erro que você está minimizando.
4- Regressão logística
Essa é uma poderosa forma de estatística usada para modelar um resultado binomial com uma ou mais variáveis explicativas. Ela mede a relação entre a variável dependente categórica e uma ou mais variáveis independentes, estimando as probabilidades usando uma função logística, que é a distribuição logística cumulativa.
Regressão Logística
As Regressões Logísticas são usadas para:
- Pontuação de crédito
- Medir as taxas de sucesso das campanhas de marketing
- Prever as receitas de um determinado produto
- Haverá um terremoto em um determinado dia?
5- Suport Vector Machine (SVM)
O SVM é um algoritmo binário da classificação. Onde é dado um conjunto de pontos de 2 tipos em lugar N dimensional, o SVM gera um hiperplano (N – 1) dimensional para separar esses pontos em 2 grupos.
Considere que você tem alguns pontos de 2 tipos em um papel que são linearmente separáveis. o SVM encontrará uma linha reta que separa esses pontos em 2 tipos e situados o mais longe possível de todos esses pontos.
SVM
Exemplos de uso de SVM.
- Publicidades em display.
- Reconheciomnto de site de splice humano
- Detecção de gênero baseada em imagem.
- Classificação de imagem em grande escala
6- Esemble Methods
Os Esemble Methods são algoritmos de aprendizagem que constroem um conjunto de classificadores e, em seguida, classificam novos pontos de dados, tendo um ponderado voto de suas previsões. O método de conjunto original é a média bayesiana, mas os algoritmos mais recentes incluem codificação de saída, correção de erros, bagging e reforço.
Esemble Methods
Como funcionam os métodos de conjunto e porque eles são superiores aos modelos individuais .
- Eles reduzem a variância: A opinião agregada de um monte de modelos é menos barulhenta do que a opinião única de um dos modelos. Em finanças, isso é chamado de diversificação – onde uma carteira mista de muitas ações será muito menos variável do que apenas um dos estoques sozinho. É por isso que seus modelos serão melhores com mais pontos de dados do que menos.
- É improvável que eles se sobrepõem: se você tem modelos individuais que não se sobrepõem e está combinando as previsões de cada modelo de uma maneira simples (média, média ponderada, regressão logística), então não há espaço para sobrecarga.
Aprendizagem sem supervisão:
7- Algorítimos de Agrupamento (Clustering)
O clustering faz a tarefa de agupar um conjunto de objetos de tal modo que os do mesmo grupo (cluster) sendo mais semelhantes uns aos outros do que aqueles em outros grupos.
Clustering
No Clustering, cada algoritmo de agrupamento é diferente, confifa alguns deles abaixo.
- Algoritmos baseados em Centroid
- Algoritmos baseados em conectividade
- Algoritmos baseados em densidade
- Probabilístico
- Redução da Dimensionalidade
- Redes Neurais / Aprendizagem Profunda
8- Decomposição em Valores Singulares
Em álgebra linear, o SVD é a fatorização de uma matriz complexa real. Onde para uma matriz de ordem m* n M, existe uma decomposição tal que M = UΣV, onde U e V são matrizes unitárias e Σ é uma matriz diagonal.
E sendo o PCA uma aplicação simples de SVD. Em uma visão computacional, os algorítimos de reconhecimento de primeira face usam o PCAe o SVD para fazer a representação da face em uma combinação linear de "eigenfaces", para fazer a redução de dimensionalidade e após isso fazer a correspondência das faces e as identidades através de métodos simples .
Atualmente já existem outros métiodos mais modernos mas eles ainda dependem de técnicas semelhantes.
9 - Análise de Comonentes Principais (PCA)
O PCA na verdade é um procedimento estático que usa uma transformação ortogonal para converter um conjunto de observações de variáveis, que são possivelmente relacionadas em um conjunto de valores de variáveis linearmente não correlacionadas, chamadas componentes principais.
PCA
Alguns de aplicações do PCA incluem a compressão e a simplificação de dados com o objetivo de facilitar o aprendizado e avisualização. Vale dizer que o conhecimento do domínio é muito importante ao se escolher se deve-se savançar comn o PCA ou não.
10 - Análise de Componentes Independentes (ICA)
O ICA na realidade é uma técnica estatística para a revelação de fatores ocultos que estão subjacentes a conjuntos de variáveis aleatórias, medições ou sinais.
O ICA irá definir um modelo generativo para os dados multivalorados observados que normalmente são dados como um grande banco de dados de amostras . Nesse modelo as variáveis de dados assumem o papel de misturas lineares de algumas variáveis latentes desconhecidas, onde também o sistema de mistura é desconhecido.
Essas variáveis latentes são consideradas como variáveis não gaussianas e mutualmente dependentes, sendo chamadas de componentes independentes dos dados observados.
Mesmo estando relacionado ao PCA, o ICa é uma técnica muito poderoza, onde é capaz de encontrar os fatores subjacentes das fontes quando a metodologia clássica falha,
As aplicações que usam o ICA incluesm:
- Imagens Digitais
- Bancos de Dados de Documentos
- Indicadores Econômicos
- Medições Psicométricas.
Até a próxima !!
Nenhum comentário:
Postar um comentário