Correlação e regressão linear simples - Biometrics de Recursos Naturais (2024)

Em muitos estudos, medimos mais de uma variável para cada indivíduo.Por exemplo, medimos a precipitação e o crescimento das plantas, ou número de jovens com habitat de nidificação, ou erosão do solo e volume de água.Coletamos pares de dados e, em vez de examinar cada variável separadamente (dados univariados), queremos encontrar maneiras de descreverdados bivariados, em que duas variáveis são medidas em cada sujeito em nossa amostra.Dados esses dados, começamos determinando se existe uma relação entre essas duas variáveis.Como valores de uma mudança variável, vemos alterações correspondentes na outra variável?

Podemos descrever a relação entre essas duas variáveis de graficamente e numericamente.Começamos considerando o conceito de correlação.

A correlação é definida como a associação estatística entre duas variáveis.

Existe uma correlação entre duas variáveis quando uma delas está relacionada à outra de alguma forma.Um gráfico de dispersão é o melhor lugar para começar.Um gráfico de dispersão (ou diagrama de dispersão) é um gráfico dos dados de amostra emparelhados (x, y) com um eixo x horizontal e um eixo y vertical.Cada par individual (x, y) é plotado como um único ponto.

Correlação e regressão linear simples - Biometrics de Recursos Naturais (1)

Neste exemplo, traçamos a circunferência do peito (y) contra o comprimento do urso (x).Ao examinar um gráfico de dispersão, devemos estudar o padrão geral dos pontos plotados.Neste exemplo, vemos que o valor da circunferência do peito tende a aumentar à medida que o valor do comprimento aumenta.Podemos ver uma inclinação para cima e um padrão de linha reta nos pontos de dados plotados.

Um gráfico de dispersão pode identificar vários tipos diferentes de relacionamentos entre duas variáveis.

  • Um relacionamento temnenhuma correlaçãoQuando os pontos em um gráfico de dispersão não mostram nenhum padrão.
  • Um relacionamento énão linearQuando os pontos em um gráfico de dispersão seguem um padrão, mas não uma linha reta.
  • Um relacionamento élinearQuando os pontos em um gráfico de dispersão seguem um padrão de linha reta.Este é o relacionamento que examinaremos.

Os relacionamentos lineares podem ser positivos ou negativos.Relacionamentos positivos têm pontos que se inclinam para a direita.Comoxvalores aumentam,yOs valores aumentam.ComoxOs valores diminuem,yOs valores diminuem.Por exemplo, ao estudar plantas, a altura normalmente aumenta à medida que o diâmetro aumenta.

Correlação e regressão linear simples - Biometrics de Recursos Naturais (2)

Relacionamentos negativos têm pontos que diminuem para baixo para a direita.Comoxvalores aumentam,yOs valores diminuem.ComoxOs valores diminuem,yOs valores aumentam.Por exemplo, à medida que a velocidade do vento aumenta, a temperatura do frio do vento diminui.

Correlação e regressão linear simples - Biometrics de Recursos Naturais (3)

Os relacionamentos não lineares têm um padrão aparente, apenas não linear.Por exemplo, à medida que a idade aumenta a altura aumenta até certo ponto, então se agita após atingir uma altura máxima.

Correlação e regressão linear simples - Biometrics de Recursos Naturais (4)

Quando duas variáveis ​​não têm relacionamento, não há relacionamento linear ou relacionamento não linear.Quando uma variável muda, ela não influencia a outra variável.

Correlação e regressão linear simples - Biometrics de Recursos Naturais (5)

Coeficiente de correlação linear

Como os exames visuais são amplamente subjetivos, precisamos de uma medida mais precisa e objetiva para definir a correlação entre as duas variáveis.Para quantificar a força e a direção da relação entre duas variáveis, usamos o coeficiente de correlação linear:

Correlação e regressão linear simples - Biometrics de Recursos Naturais (6)

ondexesxsão a média da amostra e o desvio padrão da amostra dox'areiaȳesysão o desvio médio e padrão doy'é.O tamanho da amostra én.

Um cálculo alternativo do coeficiente de correlação é:

Correlação e regressão linear simples - Biometrics de Recursos Naturais (7)

ondeCorrelação e regressão linear simples - Biometrics de Recursos Naturais (8)

Correlação e regressão linear simples - Biometrics de Recursos Naturais (9)

Correlação e regressão linear simples - Biometrics de Recursos Naturais (10)

O coeficiente de correlação linear também é chamado de coeficiente de correlação do momento do produto de Pearson em homenagem a Karl Pearson, que o desenvolveu originalmente.Essa estatística descreve numericamente o quão forte a relação linear ou linear é entre as duas variáveis e a direção, positiva ou negativa.

As propriedades de "R":

  • É sempre entre -1 e +1.
  • É uma medida sem unidade, para que "R" seja o mesmo valor, se você mediu as duas variáveis em libras e polegadas ou em gramas e centímetros.
  • Valores positivos de "R" estão associados a relacionamentos positivos.
  • Valores negativos de "R" estão associados a relacionamentos negativos.

Exemplos de correlação positiva

Correlação e regressão linear simples - Biometrics de Recursos Naturais (11)

Exemplos de correlação negativa

Correlação e regressão linear simples - Biometrics de Recursos Naturais (12)

Correlação não é causa !!!Só porque duas variáveis estão correlacionadas não significa que uma variável faz com que outra variável mude.

Examine os próximos dois gráficos de dispersão.Ambos os conjuntos de dados têm um r = 0,01, mas são muito diferentes.Lote 1 mostra pouca relação linear entrexeyvariáveis.O gráfico 2 mostra um forte relacionamento não linear.O coeficiente de correlação linear de Pearson mede apenas a força e a direção de um relacionamento linear.Ignorar o gráfico de dispersão pode resultar em um erro grave ao descrever o relacionamento entre duas variáveis.

Correlação e regressão linear simples - Biometrics de Recursos Naturais (13)

Quando você investiga o relacionamento entre duas variáveis, sempre comece com um gráfico de dispersão.Este gráfico permite que você procure padrões (linear e não linear).O próximo passo é descrever quantitativamente a força e a direção da relação linear usando "r".Depois de estabelecer que existe um relacionamento linear, você pode dar o próximo passo na construção de modelos.

Regressão linear simples

Depois de identificarmos duas variáveis correlacionadas, gostaríamos de modelar esse relacionamento.Queremos usar uma variável como umapreditorouexplicativovariável para explicar a outra variável, arespostaoudependentevariável.Para fazer isso, precisamos de um bom relacionamento entre nossas duas variáveis.O modelo pode ser usado para prever alterações em nossa variável de resposta.Uma forte relação entre a variável preditora e a variável de resposta leva a um bom modelo.

Correlação e regressão linear simples - Biometrics de Recursos Naturais (14)

Um modelo de regressão linear simples é uma equação matemática que nos permite prever uma resposta para um determinado valor do preditor.

Nosso modelo assumirá a forma deea= b0+ b1xondeb0é a interceptação y,b1é a ladeira,xé a variável preditora eeaUma estimativa do valor médio da variável de resposta para qualquer valor da variável preditora.

A interceptação y é o valor previsto para a resposta (y) quandox= 0. A inclinação descreve a mudança emypara cada unidade muda emx.Vejamos este exemplo para esclarecer a interpretação da inclinação e da interceptação.

Exemplo 1

Um hidrologista cria um modelo para prever o fluxo de volume para uma corrente em uma ponte cruzando com uma variável preditora de chuvas diárias em polegadas.

ea= 1,6 + 29x.A interceptação em Y de 1,6 pode ser interpretada desta maneira: em um dia sem chuvas, haverá 1,6 gal.de água/min.fluindo no riacho naquela passagem de ponte.A inclinação nos diz que, se chovesse uma polegada naquele dia, o fluxo no fluxo aumentaria em 29 gal./min adicionais.Se chovesse 2 polegadas naquele dia, o fluxo aumentaria em 58 gal./min/min.

Exemplo 2

Qual seria o fluxo médio de fluxo se choveu 0,45 polegadas naquele dia?

ea= 1,6 + 29x= 1,6 + 29 (0,45) = 14,65 gal./min.

A linha de regressão dos mínimos quadrados (equações de atalho)

A equação é dada porea= b0+ b1x

ondeCorrelação e regressão linear simples - Biometrics de Recursos Naturais (15)é a ladeira eb0=ea- b1 xé a interceptação em Y da linha de regressão.

Uma equação computacional alternativa para a inclinação é:

Correlação e regressão linear simples - Biometrics de Recursos Naturais (16)

Este modelo simples é a linha de melhor ajuste para nossos dados de amostra.A linha de regressão não passa por todos os pontos;Em vez disso, equilibra a diferença entre todos os pontos de dados e o modelo linear.A diferença entre o valor dos dados observados e o valor previsto (o valor na linha reta) é o erro ouresidual.O critério para determinar a linha que melhor descreve a relação entre duas variáveis é baseada nos resíduos.

Residual = observado - previsto

Por exemplo, se você quisesse prever a circunferência de um urso preto, com seu peso, poderá usar o seguinte modelo.

Girth de tórax = 13,2 +0,43 peso

A circunferência do peito prevista de um urso que pesava 120 lb. é de 64,8 pol.

Curiva do peito = 13,2 + 0,43 (120) = 64,8 pol.

Mas uma circunferência de tórax de urso medida (valor observado) para um urso que pesava 120 lb. na verdade era de 62,1 pol.

O resíduo seria 62,1 -64,8 = -2,7 pol.

Um resíduo negativo indica que o modelo está superestimando.Um resíduo positivo indica que o modelo está sub-predicting.Nesse caso, o modelo superestou a circunferência de um urso que realmente pesava 120 lb.

Correlação e regressão linear simples - Biometrics de Recursos Naturais (17)

Esse erro aleatório (residual) leva em consideração todos os fatores imprevisíveis e desconhecidos que não estão incluídos no modelo.Uma linha de regressão de mínimos quadrados ordinária minimiza a soma dos erros quadrados entre os valores observados e previstos para criar uma linha de melhor ajuste.As diferenças entre os valores observadas e previstas são quadradas para lidar com as diferenças positivas e negativas.

Coeficiente de determinação

Depois de ajustarmos nossa linha de regressão (calculeb0eb1), geralmente queremos saber o quão bem o modelo se encaixa em nossos dados.Para determinar isso, precisamos pensar na idéia de análise de variância.Na ANOVA, particionamos a variação usando somas de quadrados para que pudéssemos identificar um efeito de tratamento, oposto à variação aleatória que ocorreu em nossos dados.A idéia é a mesma para a regressão.Queremos particionar a variabilidade total em duas partes: a variação devido à regressão e à variação devido a erro aleatório.E voltamos a calcular somas de quadrados para nos ajudar a fazer isso.

Suponha que a variabilidade total nas medições da amostra sobre a média da amostra seja denotada porCorrelação e regressão linear simples - Biometrics de Recursos Naturais (18), Chamou osomas de quadrados de variabilidade total sobre a média (SST).A diferença quadrada entre o valor previstoCorrelação e regressão linear simples - Biometrics de Recursos Naturais (19)e a média da amostra é denotada porCorrelação e regressão linear simples - Biometrics de Recursos Naturais (20), Chamou osomas de quadrados devido à regressão (SSR).O SSR representa a variabilidade explicada pela linha de regressão.Finalmente, a variabilidade que não pode ser explicada pela linha de regressão é chamada desomas de quadrados devido a erro (SSE)e é denotado porCorrelação e regressão linear simples - Biometrics de Recursos Naturais (21).SSE é na verdade o resíduo quadrado.

SST

= Ssr

+ Sse

Correlação e regressão linear simples - Biometrics de Recursos Naturais (22)

=Correlação e regressão linear simples - Biometrics de Recursos Naturais (23)

+Correlação e regressão linear simples - Biometrics de Recursos Naturais (24)

Correlação e regressão linear simples - Biometrics de Recursos Naturais (25)

As somas de quadrados e somas médias de quadrados (assim como a ANOVA) são normalmente apresentadas na tabela de análise de regressão da variação.A proporção das somas médias dos quadrados para a regressão (MSR) e as somas médias de quadrados para erro (MSE) formam uma estatística de teste F usada para testar o modelo de regressão.

A relação entre essas somas de quadrado é definida como

Variação total = variação explicada + variação inexplicável

Quanto maior a variação explicada, melhor o modelo está em previsão.Quanto maior a variação inexplicável, pior o modelo está em previsão.Uma medida quantitativa do poder explicativo de um modelo é r2, o coeficiente de determinação:

Correlação e regressão linear simples - Biometrics de Recursos Naturais (26)

O coeficiente de determinação mede a variação percentual na variável de resposta (y) Isso é explicado pelo modelo.

  • Os valores variam de 0 a 1.
  • Um r2Perto de zero indica um modelo com muito pouco poder explicativo.
  • Um r2Perto de um indica um modelo com mais poder explicativo.

O coeficiente de determinação e o coeficiente de correlação linear estão relacionados matematicamente.

R2= r2

No entanto, eles têm dois significados muito diferentes:ré uma medida da força e direção de uma relação linear entre duas variáveis;R2descreve a variação percentual em “y”Isso é explicado pelo modelo.

Gráficos de probabilidade residual e normal

Mesmo que você tenha determinado, usando um gráfico de dispersão, coeficiente de correlação e r2, quexé útil para prever o valor dey, os resultados de uma análise de regressão são válidos apenas quando os dados satisfazem as premissas de regressão necessárias.

  1. A variável de resposta (y) é uma variável aleatória enquanto a variável preditora (x) é assumida não aleatória ou fixa e medida sem erro.
  2. O relacionamento entreyexdeve ser linear, dado pelo modeloCorrelação e regressão linear simples - Biometrics de Recursos Naturais (27).
  3. O erro do termo aleatório dos valoresesão independentes, têm uma média de 0 e uma variação comuma2, independente dex, e são normalmente distribuídos.

Podemos usarparcelas residuaisVerificar uma variação constante, bem como garantir que o modelo linear seja de fato adequado.Um gráfico residual é um gráfico de dispersão do resíduo (= observado - valores previstos) versus o valor previsto ou ajustado (conforme usado no gráfico residual).O eixo horizontal central é definido em zero.Uma propriedade dos resíduos é que eles somam zero e têm uma média de zero.Um gráfico residual deve estar livre de padrões e os resíduos devem aparecer como uma dispersão aleatória de pontos em zero.

Um gráfico residual sem aparência de padrões indica que as suposições do modelo são satisfeitas para esses dados.

Correlação e regressão linear simples - Biometrics de Recursos Naturais (28)

Um gráfico residual que possui um "formato do ventilador" indica uma variação heterogênea (variação não constante).Os resíduos tendem a abanar ou ventilar, à medida que a variação de erro aumenta ou diminui.

Correlação e regressão linear simples - Biometrics de Recursos Naturais (29)

Um enredo residual que tende a "rebentar" indica que um modelo linear pode não ser apropriado.O modelo pode precisar de termos de ordem superior dex, ou um modelo não linear pode ser necessário para descrever melhor a relação entreyex.Transformações emxouytambém pode ser considerado.

Correlação e regressão linear simples - Biometrics de Recursos Naturais (30)

AGráfico de probabilidade normalnos permite verificar se os erros são normalmente distribuídos.Ele plota os resíduos em relação ao valor esperado do resíduo, como se tivesse vindo de uma distribuição normal.Lembre-se de que, quando os resíduos forem normalmente distribuídos, eles seguirão um padrão de linha reta, inclinando-se para cima.

Esse gráfico não é incomum e não indica nenhuma não normalidade com os resíduos.

Correlação e regressão linear simples - Biometrics de Recursos Naturais (31)

Este próximo enredo ilustra claramente uma distribuição não normal dos resíduos.

Correlação e regressão linear simples - Biometrics de Recursos Naturais (32)

As violações mais graves da normalidade geralmente aparecem nas caudas da distribuição, porque é aqui que a distribuição normal difere mais de outros tipos de distribuições com uma média e disseminação semelhantes.A curvatura em uma ou nas duas extremidades de um gráfico de probabilidade normal é indicativa de não normalidade.

Modelo populacional

Nosso modelo de regressão é baseado em uma amostra denObservações bivariadas extraídas de uma população maior de medições.

Correlação e regressão linear simples - Biometrics de Recursos Naturais (33)

Usamos os meios e desvios padrão de nossos dados de amostra para calcular a inclinação (b1) e interceptação y (b0) para criar uma linha de regressão de mínimos quadrados ordinária.Mas queremos descrever o relacionamento entreyexNa população, não apenas dentro de nossos dados de amostra.Queremos construir ummodelo populacional.Agora, pensaremos na linha de mínimos quadrados calculada a partir de uma amostra como uma estimativa da verdadeira linha de regressão para a população.

O modelo populacional
Correlação e regressão linear simples - Biometrics de Recursos Naturais (34), ondemyé a resposta média da população,b0é a interceptação y, eb1é a inclinação para o modelo da população.

Em nossa população, pode haver muitas respostas diferentes para um valor dex.Em regressão linear simples, o modelo assume que para cada valor dexos valores observados da variável de respostaysão normalmente distribuídos com um meio que depende dex.Nós usamosmypara representar esses meios.Também assumimos que isso significa que todos estão em linha reta quando plotados contrax(uma linha de meios).

Correlação e regressão linear simples - Biometrics de Recursos Naturais (35)

Os dados da amostra se encaixam no modelo estatístico:

Dados = ajuste + resíduo

Correlação e regressão linear simples - Biometrics de Recursos Naturais (36)

onde os erros (eeu) são independentes e normalmente distribuídosN(0,a).A regressão linear também assume a mesma variação dey(aé o mesmo para todos os valores dex).Nós usamose(Epsilon grego) para defender a parte residual do modelo estatístico.Uma respostayé a soma de seu desvio médio e acasoeda média.Os desvioserepresenta o "ruído" nos dados.Em outras palavras, o barulho é a variação emyDevido a outras causas que impedem o observado (x, y) da formação de uma linha perfeitamente reta.

Os dados de amostra usados para regressão são os valores observados deyex.A respostaypara um dadoxé uma variável aleatória e o modelo de regressão descreve a média e o desvio padrão dessa variável aleatóriay.A interceptaçãob0, decliveb1e desvio padrãoadeysão os parâmetros desconhecidos do modelo de regressão e devem ser estimados a partir dos dados da amostra.

  • O valor deeaA partir dos mínimos quadrados, a linha de regressão é realmente uma previsão do valor médio dey(my) por um determinado valor dex.
  • A linha de regressão dos mínimos quadrados (Correlação e regressão linear simples - Biometrics de Recursos Naturais (37)) obtidos a partir de dados de amostra é a melhor estimativa da verdadeira linha de regressão populacional
    (Correlação e regressão linear simples - Biometrics de Recursos Naturais (38)).

eaé uma estimativa imparcial para a resposta médiamy
b0é uma estimativa imparcial para a interceptaçãob0
b1é uma estimativa imparcial para a ladeirab1

Estimativa de parâmetros

Depois de termos estimativas deb0eb1(de nossos dados de amostrab0eb1), a relação linear determina as estimativas demyPara todos os valores dexem nossa população, não apenas para os valores observados dex.Agora, queremos usar a linha de mínimos quadrados como base para inferência sobre uma população da qual nossa amostra foi desenhada.

Suposições de modelo nos dizem queb0eb1são normalmente distribuídos com meiosb0eb1com desvios padrão que podem ser estimados a partir dos dados.Os procedimentos para inferência sobre a linha de regressão populacional serão semelhantes aos descritos no capítulo anterior para meios.Como sempre, é importante examinar os dados para discrepantes e observações influentes.

Para fazer isso, precisamos estimara, o erro padrão de regressão.Este é o desvio padrão dos erros do modelo.Mede a variação deysobre a linha de regressão populacional.Usaremos os resíduos para calcular esse valor.Lembre -se, o valor previsto dey(p.) para um específicoxé o ponto da linha de regressão.É a estimativa imparcial da resposta média (my) por issox.O residual é:

residual = observado - previsto

eeu=yeu-ea=Correlação e regressão linear simples - Biometrics de Recursos Naturais (39)

O resíduoeeucorresponde ao desvio do modeloeeuondeA eeu= 0 com uma média de 0. o erro padrão de regressãosé uma estimativa imparcial dea.

Correlação e regressão linear simples - Biometrics de Recursos Naturais (40)

A quantidadesé a estimativa do erro padrão de regressão (a) es2é frequentemente chamado de erro quadrado médio (MSE).Um pequeno valor dessugere que os valores observados deycair perto da linha de regressão verdadeira e da linhaCorrelação e regressão linear simples - Biometrics de Recursos Naturais (41)deve fornecer estimativas e previsões precisas.

Intervalos de confiança e testes de significância para parâmetros do modelo

Em um capítulo anterior, construímos intervalos de confiança e fizemos testes de significância para o parâmetro populacionalm(a média da população).Confiamos em estatísticas de amostra, como a média e o desvio padrão para estimativas pontuais, margens de erros e estatísticas de teste.Inferência pelos parâmetros da populaçãob0(inclinação) eb1(interceptação y) é muito semelhante.

A inferência pela inclinação e interceptação é baseada na distribuição normal usando as estimativasb0eb1.Os desvios padrão dessas estimativas são múltiplos dea, o erro padrão de regressão populacional.Lembre -se de que estimamosacoms(A variabilidade dos dados sobre a linha de regressão).Porque nós usamoss, confiamos na distribuição de T estudantes com (n- 2) graus de liberdade.

Correlação e regressão linear simples - Biometrics de Recursos Naturais (42)

O erro padrão para estimativa deb0

Correlação e regressão linear simples - Biometrics de Recursos Naturais (43)

O erro padrão para estimativa deb1

Podemos construir intervalos de confiança para a inclinação da regressão e interceptar da mesma maneira que fizemos ao estimar a média da população.

Aintervalo de confiançaparab0 : b0± ta/2ComB0

Aintervalo de confiançaparab1 : b1± ta/2ComB1

onde seB0e seB1são os erros padrão para a interceptação em Y e a inclinação, respectivamente.

Também podemos testar a hipótese h0:b1= 0. Quando substituímosb1= 0 No modelo, o X-Term cai e ficamos commy=b0.Isso nos diz que a média deynão varia comx.Em outras palavras, não há uma relação de linha reta entrexeye a regressão deysobrexnão tem valor para prevery.

Teste de hipótese parab1

H0:b1= 0

H1:b1 0

A estatística de teste é t = b1/ ComB1

Também podemos usar a estatística F (MSR/MSE) na tabela ANOVA de regressão*

*Lembre -se disso2= F

Então, vamos juntar tudo isso em um exemplo.

Exemplo 3

O índice de integridade biótica (IBI) é uma medida da qualidade da água nos riachos.Como gerente dos recursos naturais nessa região, você deve monitorar, rastrear e prever mudanças na qualidade da água.Você deseja criar um modelo de regressão linear simples que permitirá prever mudanças no IBI em área florestal.A tabela a seguir transmite dados da amostra de uma região florestal costeira e fornece os dados para o IBI e a área florestal em quilômetros quadrados.Seja a área florestal a variável preditora (x) e o IBI seja a variável de resposta (y).

Correlação e regressão linear simples - Biometrics de Recursos Naturais (44)

Começamos com uma estatística descritiva da computação e um gráfico de dispersão do IBI contra a área florestal.

x= 47,42;sx27.37;ȳ= 58,80;sy= 21,38;r = 0,735

Correlação e regressão linear simples - Biometrics de Recursos Naturais (45)

Parece haver uma relação linear positiva entre as duas variáveis.O coeficiente de correlação linear é r = 0,735.Isso indica uma relação forte, positiva e linear.Em outras palavras, a área florestal é um bom preditor do IBI.Agora, vamos criar um modelo de regressão linear simples usando a área florestal para prever o IBI (resposta).

Primeiro, vamos calcularb0eb1usando as equações de atalho.

Correlação e regressão linear simples - Biometrics de Recursos Naturais (46)=Correlação e regressão linear simples - Biometrics de Recursos Naturais (47)= 0,574

Correlação e regressão linear simples - Biometrics de Recursos Naturais (48)Correlação e regressão linear simples - Biometrics de Recursos Naturais (49)= 31.581

A equação de regressão éCorrelação e regressão linear simples - Biometrics de Recursos Naturais (50).

Agora vamos usar o Minitab para calcular o modelo de regressão.A saída aparece abaixo.

Análise de regressão: IBI versus área florestal

A equação de regressão é IBI = 31,6 + 0,574 Área florestal

Preditor

Coef

SE coef

T

P

Constante

31.583

4.177

7.56

0,000

Área florestal

0,57396

0,07648

7.50

0,000

S = 14.6505

R-SQ = 54,0%

R-sq (adj) = 53,0%

Análise de variação

Fonte

Df

Ss

EM

F

P

Regressão

1

12089

12089

56.32

0,000

Erro residual

48

10303

215

Total

49

22392

As estimativas parab0eb1são 31,6 e 0,574, respectivamente.Podemos interpretar a interceptação em Y para significar que, quando houver zero área florestal, o IBI será igual a 31,6.Para cada quilômetro quadrado adicional de área florestal adicionada, o IBI aumentará em 0,574 unidades.

O coeficiente de determinação, r2, é 54,0%.Isso significa que 54% da variação no IBI é explicada por esse modelo.Aproximadamente 46% da variação no IBI se deve a outros fatores ou variação aleatória.Nós gostaríamos2para ser o mais alto possível (valor máximo de 100%).

Os gráficos de probabilidade residual e normal não indicam nenhum problema.

Correlação e regressão linear simples - Biometrics de Recursos Naturais (51)

A estimativa dea, o erro padrão de regressão, és= 14.6505.Esta é uma medida da variação dos valores observados sobre a linha de regressão populacional.Gostaríamos que esse valor fosse o menor possível.O MSE é igual a 215. Lembre -se, oCorrelação e regressão linear simples - Biometrics de Recursos Naturais (52)=s.Os erros padrão para os coeficientes são 4,177 para a interceptação y e 0,07648 para a inclinação.

Nós sabemos que os valoresb0= 31.6 eb1= 0,574 são estimativas de amostra dos parâmetros da população verdadeiros, mas desconhecidosb0eb1.Podemos construir intervalos de confiança de 95% para estimar melhor esses parâmetros.O valor crítico (ta/2) vem da distribuição t de Student com (n- 2) graus de liberdade.Nosso tamanho de amostra é de 50, por isso teríamos 48 graus de liberdade.O valor da tabela mais próximo é 2,009.

Intervalos de confiança de 95% parab0eb1

b0± ta/2ComB0= 31,6 ± 2,009 (4,177) = (23,21, 39,99)

b1± ta/2ComB1= 0,574 ± 2,009 (0,07648) = (0,4204, 0,7277)

O próximo passo é testar que a inclinação é significativamente diferente de zero usando um nível de significância de 5%.

H0:b1= 0

H1:b1 0

t = b1/ ComB1= 0,574/0,07648 = 7,50523

Temos 48 graus de liberdade e o valor crítico mais próximo da distribuição T de estudantes é de 2,009.A estatística de teste é maior que o valor crítico, portanto, rejeitaremos a hipótese nula.A inclinação é significativamente diferente de zero.Encontramos uma relação estatisticamente significativa entre a área florestal e o IBI.

A saída Minitab também relata a estatística de teste e o valor p para este teste.

A equação de regressão é IBI = 31,6 + 0,574 Área florestal

Preditor

Coef

SE coef

T

P

Constante

31.583

4.177

7.56

0,000

Área florestal

0,57396

0,07648

7.50

0,000

S = 14.6505

R-SQ = 54,0%

R-sq (adj) = 53,0%

Análise de variação

Fonte

Df

Ss

EM

F

P

Regressão

1

12089

12089

56.32

0,000

Erro residual

48

10303

215

Total

49

22392

A estatística do teste t é de 7,50 com um valor p associado de 0,000.O valor p é menor que o nível de significância (5%), portanto, rejeitaremos a hipótese nula.A inclinação é significativamente diferente de zero.O mesmo resultado pode ser encontrado na estatística do teste F de 56,32 (7,5052= 56,32).O valor p é o mesmo (0,000) que a conclusão.

Intervalo de confiança paramy

Agora que criamos um modelo de regressão construído sobre uma relação significativa entre a variável preditora e a variável de resposta, estamos prontos para usar o modelo para

  • estimando o valor médio deyPara um determinado valor dex
  • prevendo um valor particular deyPara um determinado valor dex

Vamos examinar a primeira opção.Os dados de amostra denPares que foram extraídos de uma população foi usada para calcular os coeficientes de regressãob0eb1para o nosso modelo e nos fornece o valor médio deypara um valor específico dexAtravés do nosso modelo de população

Correlação e regressão linear simples - Biometrics de Recursos Naturais (53).Para cada valor específico de x, há um y médio (my), que cai na equação da linha reta (uma linha de meios).Lembre -se de que pode haver muitos valores observados diferentes doypara um particularx, e supõe -se que esses valores tenham uma distribuição normal com uma média igual aCorrelação e regressão linear simples - Biometrics de Recursos Naturais (54)e uma variação dea2.Uma vez que os valores calculados deb0eb1Varia de amostra para amostra, cada nova amostra pode produzir uma equação de regressão ligeiramente diferente.Cada novo modelo pode ser usado para estimar um valor deypor um valor dex.Quão longe nosso estimador vaiCorrelação e regressão linear simples - Biometrics de Recursos Naturais (55)ser da verdadeira população significa para esse valor dex?Isso depende, como sempre, da variabilidade em nosso estimador, medido pelo erro padrão.

Pode ser demonstrado que o valor estimado deyquandox=x0(algum valor especificado dex), é um estimador imparcial da média da população, e quep.é normalmente distribuído com um erro padrão de

Correlação e regressão linear simples - Biometrics de Recursos Naturais (56)

Podemos construir um intervalo de confiança para estimar melhor este parâmetro (my) Seguindo o mesmo procedimento ilustrado anteriormente neste capítulo.

Correlação e regressão linear simples - Biometrics de Recursos Naturais (57)onde o valor crítico ta/2vem da tabela t de Student com (n- 2) graus de liberdade.

O software estatístico, como o Minitab, calculará os intervalos de confiança para você.Usando os dados do exemplo anterior, usaremos o Minitab para calcular o intervalo de confiança de 95% para a resposta média para uma área florestal média de 32 km.

Valores previstos para novas observações

Newobs se encaixam

SE FIT

95%

CI

1

49.9496

2.38400

(45.1562.54.7429)

Se você provar muitas áreas que tiveram uma média de 32 km.De área florestal, sua estimativa do IBI médio seria de 45.1562 a 54.7429.

Você pode repetir esse processo muitas vezes para vários valores diferentes dexe plote os intervalos de confiança para a resposta média.

x

95% IC

20

(37.13, 48,88)

40

(50,22, 58,86)

60

(61.43, 70.61)

80

(70,98, 84.02)

100

(79,88, 98.07)

Correlação e regressão linear simples - Biometrics de Recursos Naturais (58)

Observe como a largura do intervalo de confiança de 95% varia para os diferentes valores dex.Como a largura do intervalo de confiança é mais estreita para os valores centrais dex, segue quemyé estimado mais precisamente para valores dexnesta área.À medida que você avança em direção aos limites extremos dos dados, a largura dos intervalos aumenta, indicando que seria imprudente extrapolar além dos limites dos dados usados para criar esse modelo.

Intervalos de previsão

E se você quiser prever umespecialvalor deyquandox=x0?Ou, talvez você queira prever a próxima medida para um determinado valor dex?Este problema difere de construir um intervalo de confiança paramy.Em vez de construir um intervalo de confiança para estimar um parâmetro populacional, precisamos construir um intervalo de previsão.Optando por prever um valor particular deyincorre em algum erro adicional na previsão por causa do desvio deyda linha de meios.Examine a figura abaixo.Você pode ver que o erro na previsão tem dois componentes:

  1. O erro ao usar a linha ajustada para estimar a linha de meios
  2. O erro causado pelo desvio de Y da linha de meios, medido pora2
Correlação e regressão linear simples - Biometrics de Recursos Naturais (59)

A variação da diferença entre y eCorrelação e regressão linear simples - Biometrics de Recursos Naturais (60)é a soma dessas duas variações e forma a base para o erro padrão deCorrelação e regressão linear simples - Biometrics de Recursos Naturais (61)usado para previsão.A forma resultante de um intervalo de previsão é a seguinte:

Correlação e regressão linear simples - Biometrics de Recursos Naturais (62)

ondex0é o valor dado para a variável preditora,né o número de observações e ta/2é o valor crítico com (n- 2) graus de liberdade.

Software, como o Minitab, pode calcular os intervalos de previsão.Usando os dados do exemplo anterior, usaremos o Minitab para calcular o intervalo de previsão de 95% para o IBI de uma área florestal específica de 32 km.

Valores previstos para novas observações

Novo obs

Ajustar

SE FIT

95% pi

1

49.9496

2.38400

(20.1053, 79.7939)

Você pode repetir esse processo muitas vezes para vários valores diferentes dexe plote os intervalos de previsão para a resposta média.

x

95% pi

20

(13.01, 73.11)

40

(24,77, 84.31)

60

(36.21, 95,83)

80

(47.33, 107,67)

100

(58.15, 119.81)

Observe que as bandas de intervalo de previsão são mais amplas que as bandas de intervalo de confiança correspondentes, refletindo o fato de que estamos prevendo o valor de uma variável aleatória em vez de estimar um parâmetro populacional.Esperamos que as previsões de um valor individual fossem mais variáveis do que as estimativas de um valor médio.

Correlação e regressão linear simples - Biometrics de Recursos Naturais (63)

Transformações para linearizar as relações de dados

Em muitas situações, a relação entrexeynão é linear.Para simplificar o modelo subjacente, podemos transformar ou converterxouyou ambos para resultar em um relacionamento mais linear.Existem muitas transformações comuns, como logarítmico e recíproco.Incluindo termos de ordem superior emxtambém pode ajudar a linearizar o relacionamento entrexey.Abaixo estão algumas formas comuns de gráficos de dispersão e possíveis opções para transformações.No entanto, a escolha da transformação é frequentemente mais uma questão de tentativa e erro do que as regras definidas.

Correlação e regressão linear simples - Biometrics de Recursos Naturais (64)

Correlação e regressão linear simples - Biometrics de Recursos Naturais (65)

Correlação e regressão linear simples - Biometrics de Recursos Naturais (66)

Correlação e regressão linear simples - Biometrics de Recursos Naturais (67)

Exemplo 4

Um Forester precisa criar um modelo de regressão linear simples para prever o volume de árvores usando a altura do diâmetro-breast (DBH) para árvores de bordo de açúcar.Ele coleta DBH e volume para 236 árvores de bordo de açúcar e lotes de volume versus DBH.Dada a abaixo, está o gráfico de dispersão, o coeficiente de correlação e a saída de regressão do Minitab.

Correlação e regressão linear simples - Biometrics de Recursos Naturais (68)

O coeficiente de correlação linear de Pearson é 0,894, o que indica uma relação forte, positiva e linear.No entanto, o gráfico de dispersão mostra uma relação não linear distinta.

Análise de regressão: volume versus dbh

A equação de regressão é volume = - 51,1 + 7,15 dbh

Preditor

Coef

SE coef

T

P

Constante

-51.097

3.271

-15.62

0,000

dbh

7.1500

0,2342

30.53

0,000

S = 19.5820

R-sq = 79,9%

R-sq (adj) = 79,8%

Análise de variação

Fonte

Df

Ss

EM

F

P

Regressão

1

357397

357397

932.04

0,000

Erro residual

234

89728

383

Total

235

447125

O r2é 79,9% indicando um modelo bastante forte e a inclinação é significativamente diferente de zero.No entanto, tanto o gráfico residual quanto o gráfico de probabilidade normal residual indicam problemas sérios com esse modelo.Uma transformação pode ajudar a criar uma relação mais linear entre volume e DBH.

Correlação e regressão linear simples - Biometrics de Recursos Naturais (69)

O volume foi transformado no log natural do volume e plotado contra DBH (consulte o gráfico de dispersão abaixo).Infelizmente, isso pouco fez para melhorar a linearidade desse relacionamento.O Forester levou a transformação natural do DBH.O gráfico de dispersão do log natural do volume versus o log natural do DBH indicou uma relação mais linear entre essas duas variáveis.O coeficiente de correlação linear é 0,954.

Correlação e regressão linear simples - Biometrics de Recursos Naturais (70)

A saída de análise de regressão do Minitab é dada abaixo.

Análise de regressão: LNVOL vs. LNDBH

A equação de regressão é lnvol = - 2,86 + 2,44 lndbh

Preditor

Coef

SE coef

T

P

Constante

-2.8571

0,1253

-22.80

0,000

lndbh

2.44383

0.05007

48.80

0,000

S = 0,327327

R-sq = 91,1%

R-sq (adj) = 91,0%

Análise de variação

Fonte

Df

Ss

EM

F

P

Regressão

1

255.19

255.19

2381.78

0,000

Erro residual

234

25.07

0.11

Total

235

280.26

Correlação e regressão linear simples - Biometrics de Recursos Naturais (71)

O modelo usando os valores transformados de volume e DBH tem uma relação mais linear e um coeficiente de correlação mais positivo.A inclinação é significativamente diferente de zero e o r2aumentou de 79,9% para 91,1%.O gráfico residual mostra um padrão mais aleatório e o gráfico de probabilidade normal mostra alguma melhoria.

Existem muitas combinações de transformação possíveis para linearizar os dados.Cada situação é única e o usuário pode precisar tentar várias alternativas antes de selecionar a melhor transformação paraxouyou ambos.

Soluções de software

Minitab

Correlação e regressão linear simples - Biometrics de Recursos Naturais (72)Correlação e regressão linear simples - Biometrics de Recursos Naturais (73)

A saída Minitab é mostrada acima no Ex.4.

Excel

Correlação e regressão linear simples - Biometrics de Recursos Naturais (74)

Correlação e regressão linear simples - Biometrics de Recursos Naturais (75)

Correlação e regressão linear simples - Biometrics de Recursos Naturais (76)

Correlação e regressão linear simples - Biometrics de Recursos Naturais (77)
Correlação e regressão linear simples - Biometrics de Recursos Naturais (2024)

FAQs

Qual a diferença de regressão linear e correlação? ›

Correlação: resume o grau de relacionamento entre duas variáveis (X e Y, por exemplo). Regressão: tem como resultado uma equação matemática que descreve o relacionamento entre variáveis. O objetivo do estudo da correlação é determinar (mensurar) o grau de relacionamento entre duas variáveis.

Como a regressão linear simples pode ser aplicada para otimizar a gestão de recursos? ›

A regressão linear, como uma das técnicas de métodos quantitativos, é usada para melhorar a capacidade de analisar o comportamento dos custos e o aumento da objetividade e confiabilidade das informações contábeis, através da análise individual das variáveis que possam estar relacionadas com a composição do custo.

Qual é o principal objetivo da análise de regressão linear simples? ›

(2004), o objetivo do modelo de regressão linear simples é explicar a variação em uma variável dependente y em termos de variações em uma variável explicativa x.

Como verificar se os resíduos são independentes em uma regressão? ›

1- O relacionamento entre a variável dependente e independente devem ser linear; 2- Não deve haver correlação entre as variáveis independentes; 3- Os resíduos devem ter uma distribuição normal; 4- Os resíduos devem ter variância constante (hom*ocedasticidade);

Em quais situações é adequado utilizar um modelo de regressão linear? ›

Você pode usar a regressão linear simples para modelar a relação entre duas variáveis, como estas: Precipitação e rendimento de colheitas. Idade e altura em crianças.

Quando não usar regressão linear? ›

Limitações na modelagem de relações complexas: A regressão linear é limitada na modelagem de relações complexas e não lineares entre as variáveis. Para modelar essas relações, podem ser necessárias técnicas estatísticas mais avançadas, como a regressão não linear ou modelos de aprendizado de máquina.

Por que a regressão linear é importante? ›

A regressão linear desempenha um papel muito importante quando o objetivo do negócio é identificar padrões e tendências e os dados apresentam um comportamento de crescimento ou decaimento linear, ajudando assim a, prever valores futuros dos dados e tomar decisões inteligentes baseadas em dados.

Quais os pressupostos da regressão linear simples? ›

Entenda os pressupostos antes de fazer a Regressão!
  • Linearidade: a relação entre as variáveis deve ser linear.
  • hom*oscedasticidade (ou hom*ogeneidade de Variância): os termos de erro variância constante, independente dos valores das variáveis preditoras. ...
  • Independência de erros.
Nov 24, 2021

O que determina a análise de regressão linear entre duas variáveis? ›

Regressão Linear: A relação funcional entre as variáveis implica na possi- bilidade de estimar o valor de uma variável, dado o valor da outra, de acordo a função matemática que apresente melhor aderência aos dados observados.

Em que situações a análise de regressão pode ser utilizada? ›

A análise de regressão pode ser utilizada para resolver os seguintes tipos de problemas: Determinar quais variáveis explanatórias estão relacionadas à variável dependente. Entender o relacionamento entre as variáveis dependentes e explanatórias. Prever valores desconhecidos da variável dependente.

Como interpretar uma regressão linear simples? ›

Na regressão linear simples, a relação entre duas variáveis pode ser representada por uma linha reta, criando uma relação direta de causa e efeito. Assim, será possível prever os valores de uma variável dependente com base nos resultados da variável independente, como ocorre num gráfico de uma equação de primeiro grau.

Quando usar análise de regressão? ›

A análise de regressão é útil para uma organização, pois permite determinar o grau em que as variáveis independentes influenciam as variáveis dependentes. Além disso, permite explicar um fenômeno e prever coisas sobre o futuro, assim como também pode obter informações comerciais valiosas e acionáveis.

Quais são os tipos de problemas de regressão linear que podemos encontrar? ›

Existem 2 tipos de regressão linear: simples e a múltipla. Regressão linear simples : refere-se quando temos somente uma variável independente (X) para fazermos a predição. Regressão linear múltipla: refere-se a várias variáveis independentes (X)usadas para fazer a predição.

O que é resíduo em uma regressão linear? ›

Os resíduos indicam a variação natural dos dados, um fator aleatório (ou não) que o modelo não capturou. Se as pressuposições do modelo são violadas, a análise será levada a resultados duvidosos e não confiáveis para inferência.

Para que serve um gráfico de resíduos na análise de regressão? ›

A plotagem dos resíduos serve para nos dizer o quanto a linha de regressão é boa para explicar a relação entre duas variáveis. Se é distribuído de forma aleatória, sem observarmos um padrão, então, essa linha é um bom modelo para os dados aqui representados.

Qual é a diferença entre relação e correlação? ›

Correlação refere-se a uma relação entre duas variáveis distintas. Já a causalidade expressa a relação entre duas variáveis distintas, sendo que uma ocorre por causa da outra. Por isso talvez você já tenha ouvido por aí essa frase: correlação não implica em causalidade.

O que é uma análise de correlação? ›

A análise de correlação fornece o coeficiente de correlação de Pearson (r) ou o coeficiente de correlação de postos ou ordens de Spearman (dados ordenados) e a sua significância pelo teste t de Student com n-2 graus de liberdade.

Quando e como Pode-se utilizar regressão e correlação em uma análise estatística? ›

O estudo da regressão vai te conduzir a um acompanhamento da tendência da variável dependente em função do comportamento da variável independente. Quando se deseja estudar o comportamento simultâneo de duas ou mais variáveis, emprega-se a análise de Regressão e a de Correlação para avaliação da informação desejada.

Qual é a característica que define se uma correlação linear? ›

Correlação: mostra a força que mantém duas variáveis unidas. Correlação linear pode ser classificada: Direta (positiva): se aumentarmos uma variável, a outra também aumentará Inversa (negativa): se aumentarmos uma variável, a outra diminuirá

Top Articles
Rouleaux d'été verts végétaliens avec sauce aux arachides - Six Hungry Feet
As 10 principais ferramentas de geração e edição de vídeo AI para 2023 (Grátis + Premium)
Citi Trends Watches
Home Store On Summer
Swgoh Darth Vader Mods
Mimissliza01
Nbc4 Columbus Facebook
Boston Terrier Puppies For Sale Without Papers
Wyze Thermostat vs Nest: Detailed Comparison
Craig Woolard Net Worth
Dbd Wesker Build
Topeka Pets Craigslist
Biz Buzz Inquirer
Craigslist Louisville Com
Making a Docker Container Use a VPN – Natural Born Coder
Mogadore Reservoir Boat Rental Price
Express Pay Cspire
Banette Gen 3 Learnset
Famous Sl Couples Birthday Celebration Leaks
Panic at the disco: Persona 4 Dancing All Night review | Technobubble
Craigslist Chester Sc
Ice Quartz Osrs
Kaylani Lei Photos
Adams County 911 Live Incident
Frontline Education Absence Management Login
How Much Does Costco Gas Cost Today? Snapshot of Prices Across the U.S. | CostContessa
5128 Se Bybee Blvd
Reapers Tax Barotrauma
Bronya Build Prydwen
Apple iPhone SE 2nd Gen (2020) 128GB 4G (Very Good- Pre-Owned)
Jill Vasil Sell Obituary
Susan Dey Today: A Look At The Iconic Actress And Her Legacy
JetBlue, Spirit end $3.8 billion merger agreement after losing antitrust suit
Liveops Nation Okta Com Sign In
Katie Sigmond - Net Worth 2022, Age, Height, Bio, Family, Career
Mission Impossible 7 Showtimes Near Regal Willoughby Commons
Philasd Zimbra
Does Iherb Accept Ebt
Facebook Marketplace Winnipeg
80 For Brady Showtimes Near Brenden Theatres Kingman 4
History :: Town Of Saugerties
O'reilly's In Monroe Georgia
Alfyn Concoct
Find your used roadbike, gravel Bike & MTB | buycycle UK
Nashville Predators Wiki
How Old Is Ted Williams Fox News Contributor
Webworx Call Management
Inter Miami Vs Fc Dallas Total Sportek
Epiq Document Delivery
Dollar General Penny List July 18 2023
Gotham Chess Twitter
Fintechzoommortgagecalculator.live Hours
Latest Posts
Article information

Author: Kieth Sipes

Last Updated:

Views: 5663

Rating: 4.7 / 5 (67 voted)

Reviews: 90% of readers found this page helpful

Author information

Name: Kieth Sipes

Birthday: 2001-04-14

Address: Suite 492 62479 Champlin Loop, South Catrice, MS 57271

Phone: +9663362133320

Job: District Sales Analyst

Hobby: Digital arts, Dance, Ghost hunting, Worldbuilding, Kayaking, Table tennis, 3D printing

Introduction: My name is Kieth Sipes, I am a zany, rich, courageous, powerful, faithful, jolly, excited person who loves writing and wants to share my knowledge and understanding with you.