Introdução de Scatter-trama: Para se obter uma medida da relação entre as duas variáveis, marcamos os seus valores correspondentes no gráfico tendo uma das variáveis ao longo do eixo x e a outra ao longo do eixo y. O gráfico resultante é conhecido como gráfico de dispersão ou diagrama de dispersão. Scatterplots são utilizados para a correlação. Diagrama de dispersão será como mostrado belowscatter correlação plot1CorrelationA é uma medida da extensão em que a mudança de uma variável estão associados ou seguido pela mudança na outra variável. Duas variáveis que estão ligados de tal maneira é chamado bivariável população. Por exemplo, o rendimento de uma colheita varia com a quantidade de chuva e assim On.For diagramas de dispersão que deve ter dois conjuntos de dados numéricos, que podem ser representados graficamente no plano XY ou seja, um conjunto é ao longo do eixo-X e a outra ao longo da y -eixo. Se um aumento (diminuição) nos valores de uma variável corresponde a um aumento (redução) no outro, então não há correlação positiva. Se um aumento (diminuição) nos valores de uma variável corresponde a uma diminuição (aumento) no outro, então não há correlação negativa. Se nenhum relacionamento é indicada nas variáveis, então eles estão a ser dito não correlacionadas ou independent.scatter plot2scatter plot3scatter plot4Co eficiente de Correlação: O valor numérico de correlação é chamado de co-eficiente se correlação e é definida asr = '(soma XY) /(nsigma xsigma y) 'Onde X = desvio da média' barx '= X- "barx', X = desvio da média 'bary' = y - 'bary', 'sigma'x = desvio padrão de x- série, 'sigma'y desvio-padrão de y-séries e n = número de valores dos dois variables.X relacionadas com YRCorrelationGraph1strongly + veX e Y vai up0.5weakly + veas X sobe e Y normalmente vai up0independent -No relation-- 0.5weakly -veAs X sobe e Y normalmente vai down-- 1strongly -veAs X sobe e Y sempre vai downRegression Linhas de Correleation: acontece frequentemente que os pontos do gráfico de dispersão em geral, tendem a se aglomerar ao longo de uma direção bem definida que sugere uma relação linear entre as variáveis x e y. Tal linha de melhor ajuste para a distribuição dada de pontos é chamado de Linha de Regressão. Na verdade, existem duas dessas linhas, uma que dão os melhores valores médios possíveis de y para cada valor especificado de x ea segunda dando os melhores valores médios possíveis de x para valores especificados de y. O primeiro é conhecido como a linha de regressão de y sobre x e o último é conhecido como a linha de regressão de x sobre y.