Em muitos estudos, medimos mais de uma variável para cada indivíduo.Por exemplo, medimos a precipitação e o crescimento das plantas, ou número de jovens com habitat de nidificação, ou erosão do solo e volume de água.Coletamos pares de dados e, em vez de examinar cada variável separadamente (dados univariados), queremos encontrar maneiras de descreverdados bivariados, em que duas variáveis são medidas em cada sujeito em nossa amostra.Dados esses dados, começamos determinando se existe uma relação entre essas duas variáveis.Como valores de uma mudança variável, vemos alterações correspondentes na outra variável?
Podemos descrever a relação entre essas duas variáveis de graficamente e numericamente.Começamos considerando o conceito de correlação.
A correlação é definida como a associação estatística entre duas variáveis.
Existe uma correlação entre duas variáveis quando uma delas está relacionada à outra de alguma forma.Um gráfico de dispersão é o melhor lugar para começar.Um gráfico de dispersão (ou diagrama de dispersão) é um gráfico dos dados de amostra emparelhados (x, y) com um eixo x horizontal e um eixo y vertical.Cada par individual (x, y) é plotado como um único ponto.
Neste exemplo, traçamos a circunferência do peito (y) contra o comprimento do urso (x).Ao examinar um gráfico de dispersão, devemos estudar o padrão geral dos pontos plotados.Neste exemplo, vemos que o valor da circunferência do peito tende a aumentar à medida que o valor do comprimento aumenta.Podemos ver uma inclinação para cima e um padrão de linha reta nos pontos de dados plotados.
Um gráfico de dispersão pode identificar vários tipos diferentes de relacionamentos entre duas variáveis.
- Um relacionamento temnenhuma correlaçãoQuando os pontos em um gráfico de dispersão não mostram nenhum padrão.
- Um relacionamento énão linearQuando os pontos em um gráfico de dispersão seguem um padrão, mas não uma linha reta.
- Um relacionamento élinearQuando os pontos em um gráfico de dispersão seguem um padrão de linha reta.Este é o relacionamento que examinaremos.
Os relacionamentos lineares podem ser positivos ou negativos.Relacionamentos positivos têm pontos que se inclinam para a direita.Comoxvalores aumentam,yOs valores aumentam.ComoxOs valores diminuem,yOs valores diminuem.Por exemplo, ao estudar plantas, a altura normalmente aumenta à medida que o diâmetro aumenta.
Relacionamentos negativos têm pontos que diminuem para baixo para a direita.Comoxvalores aumentam,yOs valores diminuem.ComoxOs valores diminuem,yOs valores aumentam.Por exemplo, à medida que a velocidade do vento aumenta, a temperatura do frio do vento diminui.
Os relacionamentos não lineares têm um padrão aparente, apenas não linear.Por exemplo, à medida que a idade aumenta a altura aumenta até certo ponto, então se agita após atingir uma altura máxima.
Quando duas variáveis não têm relacionamento, não há relacionamento linear ou relacionamento não linear.Quando uma variável muda, ela não influencia a outra variável.
Coeficiente de correlação linear
Como os exames visuais são amplamente subjetivos, precisamos de uma medida mais precisa e objetiva para definir a correlação entre as duas variáveis.Para quantificar a força e a direção da relação entre duas variáveis, usamos o coeficiente de correlação linear:
ondexesxsão a média da amostra e o desvio padrão da amostra dox'areiaȳesysão o desvio médio e padrão doy'é.O tamanho da amostra én.
Um cálculo alternativo do coeficiente de correlação é:
onde
O coeficiente de correlação linear também é chamado de coeficiente de correlação do momento do produto de Pearson em homenagem a Karl Pearson, que o desenvolveu originalmente.Essa estatística descreve numericamente o quão forte a relação linear ou linear é entre as duas variáveis e a direção, positiva ou negativa.
As propriedades de "R":
- É sempre entre -1 e +1.
- É uma medida sem unidade, para que "R" seja o mesmo valor, se você mediu as duas variáveis em libras e polegadas ou em gramas e centímetros.
- Valores positivos de "R" estão associados a relacionamentos positivos.
- Valores negativos de "R" estão associados a relacionamentos negativos.
Exemplos de correlação positiva
Exemplos de correlação negativa
Correlação não é causa !!!Só porque duas variáveis estão correlacionadas não significa que uma variável faz com que outra variável mude.
Examine os próximos dois gráficos de dispersão.Ambos os conjuntos de dados têm um r = 0,01, mas são muito diferentes.Lote 1 mostra pouca relação linear entrexeyvariáveis.O gráfico 2 mostra um forte relacionamento não linear.O coeficiente de correlação linear de Pearson mede apenas a força e a direção de um relacionamento linear.Ignorar o gráfico de dispersão pode resultar em um erro grave ao descrever o relacionamento entre duas variáveis.
Quando você investiga o relacionamento entre duas variáveis, sempre comece com um gráfico de dispersão.Este gráfico permite que você procure padrões (linear e não linear).O próximo passo é descrever quantitativamente a força e a direção da relação linear usando "r".Depois de estabelecer que existe um relacionamento linear, você pode dar o próximo passo na construção de modelos.
Regressão linear simples
Depois de identificarmos duas variáveis correlacionadas, gostaríamos de modelar esse relacionamento.Queremos usar uma variável como umapreditorouexplicativovariável para explicar a outra variável, arespostaoudependentevariável.Para fazer isso, precisamos de um bom relacionamento entre nossas duas variáveis.O modelo pode ser usado para prever alterações em nossa variável de resposta.Uma forte relação entre a variável preditora e a variável de resposta leva a um bom modelo.
Um modelo de regressão linear simples é uma equação matemática que nos permite prever uma resposta para um determinado valor do preditor.
Nosso modelo assumirá a forma deea= b0+ b1xondeb0é a interceptação y,b1é a ladeira,xé a variável preditora eeaUma estimativa do valor médio da variável de resposta para qualquer valor da variável preditora.
A interceptação y é o valor previsto para a resposta (y) quandox= 0. A inclinação descreve a mudança emypara cada unidade muda emx.Vejamos este exemplo para esclarecer a interpretação da inclinação e da interceptação.
Exemplo 1
Um hidrologista cria um modelo para prever o fluxo de volume para uma corrente em uma ponte cruzando com uma variável preditora de chuvas diárias em polegadas.
ea= 1,6 + 29x.A interceptação em Y de 1,6 pode ser interpretada desta maneira: em um dia sem chuvas, haverá 1,6 gal.de água/min.fluindo no riacho naquela passagem de ponte.A inclinação nos diz que, se chovesse uma polegada naquele dia, o fluxo no fluxo aumentaria em 29 gal./min adicionais.Se chovesse 2 polegadas naquele dia, o fluxo aumentaria em 58 gal./min/min.
Exemplo 2
Qual seria o fluxo médio de fluxo se choveu 0,45 polegadas naquele dia?
ea= 1,6 + 29x= 1,6 + 29 (0,45) = 14,65 gal./min.
A linha de regressão dos mínimos quadrados (equações de atalho)
A equação é dada porea= b0+ b1x
ondeé a ladeira eb0=ea- b1 xé a interceptação em Y da linha de regressão.
Uma equação computacional alternativa para a inclinação é:
Este modelo simples é a linha de melhor ajuste para nossos dados de amostra.A linha de regressão não passa por todos os pontos;Em vez disso, equilibra a diferença entre todos os pontos de dados e o modelo linear.A diferença entre o valor dos dados observados e o valor previsto (o valor na linha reta) é o erro ouresidual.O critério para determinar a linha que melhor descreve a relação entre duas variáveis é baseada nos resíduos.
Residual = observado - previsto
Por exemplo, se você quisesse prever a circunferência de um urso preto, com seu peso, poderá usar o seguinte modelo.
Girth de tórax = 13,2 +0,43 peso
A circunferência do peito prevista de um urso que pesava 120 lb. é de 64,8 pol.
Curiva do peito = 13,2 + 0,43 (120) = 64,8 pol.
Mas uma circunferência de tórax de urso medida (valor observado) para um urso que pesava 120 lb. na verdade era de 62,1 pol.
O resíduo seria 62,1 -64,8 = -2,7 pol.
Um resíduo negativo indica que o modelo está superestimando.Um resíduo positivo indica que o modelo está sub-predicting.Nesse caso, o modelo superestou a circunferência de um urso que realmente pesava 120 lb.
Esse erro aleatório (residual) leva em consideração todos os fatores imprevisíveis e desconhecidos que não estão incluídos no modelo.Uma linha de regressão de mínimos quadrados ordinária minimiza a soma dos erros quadrados entre os valores observados e previstos para criar uma linha de melhor ajuste.As diferenças entre os valores observadas e previstas são quadradas para lidar com as diferenças positivas e negativas.
Coeficiente de determinação
Depois de ajustarmos nossa linha de regressão (calculeb0eb1), geralmente queremos saber o quão bem o modelo se encaixa em nossos dados.Para determinar isso, precisamos pensar na idéia de análise de variância.Na ANOVA, particionamos a variação usando somas de quadrados para que pudéssemos identificar um efeito de tratamento, oposto à variação aleatória que ocorreu em nossos dados.A idéia é a mesma para a regressão.Queremos particionar a variabilidade total em duas partes: a variação devido à regressão e à variação devido a erro aleatório.E voltamos a calcular somas de quadrados para nos ajudar a fazer isso.
Suponha que a variabilidade total nas medições da amostra sobre a média da amostra seja denotada por, Chamou osomas de quadrados de variabilidade total sobre a média (SST).A diferença quadrada entre o valor previstoe a média da amostra é denotada por, Chamou osomas de quadrados devido à regressão (SSR).O SSR representa a variabilidade explicada pela linha de regressão.Finalmente, a variabilidade que não pode ser explicada pela linha de regressão é chamada desomas de quadrados devido a erro (SSE)e é denotado por.SSE é na verdade o resíduo quadrado.
SST | = Ssr | + Sse |
= | + |
As somas de quadrados e somas médias de quadrados (assim como a ANOVA) são normalmente apresentadas na tabela de análise de regressão da variação.A proporção das somas médias dos quadrados para a regressão (MSR) e as somas médias de quadrados para erro (MSE) formam uma estatística de teste F usada para testar o modelo de regressão.
A relação entre essas somas de quadrado é definida como
Variação total = variação explicada + variação inexplicável
Quanto maior a variação explicada, melhor o modelo está em previsão.Quanto maior a variação inexplicável, pior o modelo está em previsão.Uma medida quantitativa do poder explicativo de um modelo é r2, o coeficiente de determinação:
O coeficiente de determinação mede a variação percentual na variável de resposta (y) Isso é explicado pelo modelo.
- Os valores variam de 0 a 1.
- Um r2Perto de zero indica um modelo com muito pouco poder explicativo.
- Um r2Perto de um indica um modelo com mais poder explicativo.
O coeficiente de determinação e o coeficiente de correlação linear estão relacionados matematicamente.
R2= r2
No entanto, eles têm dois significados muito diferentes:ré uma medida da força e direção de uma relação linear entre duas variáveis;R2descreve a variação percentual em “y”Isso é explicado pelo modelo.
Gráficos de probabilidade residual e normal
Mesmo que você tenha determinado, usando um gráfico de dispersão, coeficiente de correlação e r2, quexé útil para prever o valor dey, os resultados de uma análise de regressão são válidos apenas quando os dados satisfazem as premissas de regressão necessárias.
- A variável de resposta (y) é uma variável aleatória enquanto a variável preditora (x) é assumida não aleatória ou fixa e medida sem erro.
- O relacionamento entreyexdeve ser linear, dado pelo modelo.
- O erro do termo aleatório dos valoresesão independentes, têm uma média de 0 e uma variação comuma2, independente dex, e são normalmente distribuídos.
Podemos usarparcelas residuaisVerificar uma variação constante, bem como garantir que o modelo linear seja de fato adequado.Um gráfico residual é um gráfico de dispersão do resíduo (= observado - valores previstos) versus o valor previsto ou ajustado (conforme usado no gráfico residual).O eixo horizontal central é definido em zero.Uma propriedade dos resíduos é que eles somam zero e têm uma média de zero.Um gráfico residual deve estar livre de padrões e os resíduos devem aparecer como uma dispersão aleatória de pontos em zero.
Um gráfico residual sem aparência de padrões indica que as suposições do modelo são satisfeitas para esses dados.
Um gráfico residual que possui um "formato do ventilador" indica uma variação heterogênea (variação não constante).Os resíduos tendem a abanar ou ventilar, à medida que a variação de erro aumenta ou diminui.
Um enredo residual que tende a "rebentar" indica que um modelo linear pode não ser apropriado.O modelo pode precisar de termos de ordem superior dex, ou um modelo não linear pode ser necessário para descrever melhor a relação entreyex.Transformações emxouytambém pode ser considerado.
AGráfico de probabilidade normalnos permite verificar se os erros são normalmente distribuídos.Ele plota os resíduos em relação ao valor esperado do resíduo, como se tivesse vindo de uma distribuição normal.Lembre-se de que, quando os resíduos forem normalmente distribuídos, eles seguirão um padrão de linha reta, inclinando-se para cima.
Esse gráfico não é incomum e não indica nenhuma não normalidade com os resíduos.
Este próximo enredo ilustra claramente uma distribuição não normal dos resíduos.
As violações mais graves da normalidade geralmente aparecem nas caudas da distribuição, porque é aqui que a distribuição normal difere mais de outros tipos de distribuições com uma média e disseminação semelhantes.A curvatura em uma ou nas duas extremidades de um gráfico de probabilidade normal é indicativa de não normalidade.
Modelo populacional
Nosso modelo de regressão é baseado em uma amostra denObservações bivariadas extraídas de uma população maior de medições.
Usamos os meios e desvios padrão de nossos dados de amostra para calcular a inclinação (b1) e interceptação y (b0) para criar uma linha de regressão de mínimos quadrados ordinária.Mas queremos descrever o relacionamento entreyexNa população, não apenas dentro de nossos dados de amostra.Queremos construir ummodelo populacional.Agora, pensaremos na linha de mínimos quadrados calculada a partir de uma amostra como uma estimativa da verdadeira linha de regressão para a população.
O modelo populacional
, ondemyé a resposta média da população,b0é a interceptação y, eb1é a inclinação para o modelo da população.
Em nossa população, pode haver muitas respostas diferentes para um valor dex.Em regressão linear simples, o modelo assume que para cada valor dexos valores observados da variável de respostaysão normalmente distribuídos com um meio que depende dex.Nós usamosmypara representar esses meios.Também assumimos que isso significa que todos estão em linha reta quando plotados contrax(uma linha de meios).
Os dados da amostra se encaixam no modelo estatístico:
Dados = ajuste + resíduo
onde os erros (eeu) são independentes e normalmente distribuídosN(0,a).A regressão linear também assume a mesma variação dey(aé o mesmo para todos os valores dex).Nós usamose(Epsilon grego) para defender a parte residual do modelo estatístico.Uma respostayé a soma de seu desvio médio e acasoeda média.Os desvioserepresenta o "ruído" nos dados.Em outras palavras, o barulho é a variação emyDevido a outras causas que impedem o observado (x, y) da formação de uma linha perfeitamente reta.
Os dados de amostra usados para regressão são os valores observados deyex.A respostaypara um dadoxé uma variável aleatória e o modelo de regressão descreve a média e o desvio padrão dessa variável aleatóriay.A interceptaçãob0, decliveb1e desvio padrãoadeysão os parâmetros desconhecidos do modelo de regressão e devem ser estimados a partir dos dados da amostra.
- O valor deeaA partir dos mínimos quadrados, a linha de regressão é realmente uma previsão do valor médio dey(my) por um determinado valor dex.
- A linha de regressão dos mínimos quadrados () obtidos a partir de dados de amostra é a melhor estimativa da verdadeira linha de regressão populacional
().
eaé uma estimativa imparcial para a resposta médiamy
b0é uma estimativa imparcial para a interceptaçãob0
b1é uma estimativa imparcial para a ladeirab1
Estimativa de parâmetros
Depois de termos estimativas deb0eb1(de nossos dados de amostrab0eb1), a relação linear determina as estimativas demyPara todos os valores dexem nossa população, não apenas para os valores observados dex.Agora, queremos usar a linha de mínimos quadrados como base para inferência sobre uma população da qual nossa amostra foi desenhada.
Suposições de modelo nos dizem queb0eb1são normalmente distribuídos com meiosb0eb1com desvios padrão que podem ser estimados a partir dos dados.Os procedimentos para inferência sobre a linha de regressão populacional serão semelhantes aos descritos no capítulo anterior para meios.Como sempre, é importante examinar os dados para discrepantes e observações influentes.
Para fazer isso, precisamos estimara, o erro padrão de regressão.Este é o desvio padrão dos erros do modelo.Mede a variação deysobre a linha de regressão populacional.Usaremos os resíduos para calcular esse valor.Lembre -se, o valor previsto dey(p.) para um específicoxé o ponto da linha de regressão.É a estimativa imparcial da resposta média (my) por issox.O residual é:
residual = observado - previsto
eeu=yeu-ea=
O resíduoeeucorresponde ao desvio do modeloeeuondeA eeu= 0 com uma média de 0. o erro padrão de regressãosé uma estimativa imparcial dea.
A quantidadesé a estimativa do erro padrão de regressão (a) es2é frequentemente chamado de erro quadrado médio (MSE).Um pequeno valor dessugere que os valores observados deycair perto da linha de regressão verdadeira e da linhadeve fornecer estimativas e previsões precisas.
Intervalos de confiança e testes de significância para parâmetros do modelo
Em um capítulo anterior, construímos intervalos de confiança e fizemos testes de significância para o parâmetro populacionalm(a média da população).Confiamos em estatísticas de amostra, como a média e o desvio padrão para estimativas pontuais, margens de erros e estatísticas de teste.Inferência pelos parâmetros da populaçãob0(inclinação) eb1(interceptação y) é muito semelhante.
A inferência pela inclinação e interceptação é baseada na distribuição normal usando as estimativasb0eb1.Os desvios padrão dessas estimativas são múltiplos dea, o erro padrão de regressão populacional.Lembre -se de que estimamosacoms(A variabilidade dos dados sobre a linha de regressão).Porque nós usamoss, confiamos na distribuição de T estudantes com (n- 2) graus de liberdade.
O erro padrão para estimativa deb0
O erro padrão para estimativa deb1
Podemos construir intervalos de confiança para a inclinação da regressão e interceptar da mesma maneira que fizemos ao estimar a média da população.
Aintervalo de confiançaparab0 : b0± ta/2ComB0
Aintervalo de confiançaparab1 : b1± ta/2ComB1
onde seB0e seB1são os erros padrão para a interceptação em Y e a inclinação, respectivamente.
Também podemos testar a hipótese h0:b1= 0. Quando substituímosb1= 0 No modelo, o X-Term cai e ficamos commy=b0.Isso nos diz que a média deynão varia comx.Em outras palavras, não há uma relação de linha reta entrexeye a regressão deysobrexnão tem valor para prevery.
Teste de hipótese parab1
H0:b1= 0
H1:b1 ≠0
A estatística de teste é t = b1/ ComB1
Também podemos usar a estatística F (MSR/MSE) na tabela ANOVA de regressão*
*Lembre -se disso2= F
Então, vamos juntar tudo isso em um exemplo.
Exemplo 3
O índice de integridade biótica (IBI) é uma medida da qualidade da água nos riachos.Como gerente dos recursos naturais nessa região, você deve monitorar, rastrear e prever mudanças na qualidade da água.Você deseja criar um modelo de regressão linear simples que permitirá prever mudanças no IBI em área florestal.A tabela a seguir transmite dados da amostra de uma região florestal costeira e fornece os dados para o IBI e a área florestal em quilômetros quadrados.Seja a área florestal a variável preditora (x) e o IBI seja a variável de resposta (y).
Começamos com uma estatística descritiva da computação e um gráfico de dispersão do IBI contra a área florestal.
x= 47,42;sx27.37;ȳ= 58,80;sy= 21,38;r = 0,735
Parece haver uma relação linear positiva entre as duas variáveis.O coeficiente de correlação linear é r = 0,735.Isso indica uma relação forte, positiva e linear.Em outras palavras, a área florestal é um bom preditor do IBI.Agora, vamos criar um modelo de regressão linear simples usando a área florestal para prever o IBI (resposta).
Primeiro, vamos calcularb0eb1usando as equações de atalho.
== 0,574
= 31.581
A equação de regressão é.
Agora vamos usar o Minitab para calcular o modelo de regressão.A saída aparece abaixo.
Análise de regressão: IBI versus área florestal
A equação de regressão é IBI = 31,6 + 0,574 Área florestal
Preditor | Coef | SE coef | T | P |
Constante | 31.583 | 4.177 | 7.56 | 0,000 |
Área florestal | 0,57396 | 0,07648 | 7.50 | 0,000 |
S = 14.6505 | R-SQ = 54,0% | R-sq (adj) = 53,0% |
Análise de variação | |||||
Fonte | Df | Ss | EM | F | P |
Regressão | 1 | 12089 | 12089 | 56.32 | 0,000 |
Erro residual | 48 | 10303 | 215 | ||
Total | 49 | 22392 |
As estimativas parab0eb1são 31,6 e 0,574, respectivamente.Podemos interpretar a interceptação em Y para significar que, quando houver zero área florestal, o IBI será igual a 31,6.Para cada quilômetro quadrado adicional de área florestal adicionada, o IBI aumentará em 0,574 unidades.
O coeficiente de determinação, r2, é 54,0%.Isso significa que 54% da variação no IBI é explicada por esse modelo.Aproximadamente 46% da variação no IBI se deve a outros fatores ou variação aleatória.Nós gostaríamos2para ser o mais alto possível (valor máximo de 100%).
Os gráficos de probabilidade residual e normal não indicam nenhum problema.
A estimativa dea, o erro padrão de regressão, és= 14.6505.Esta é uma medida da variação dos valores observados sobre a linha de regressão populacional.Gostaríamos que esse valor fosse o menor possível.O MSE é igual a 215. Lembre -se, o=s.Os erros padrão para os coeficientes são 4,177 para a interceptação y e 0,07648 para a inclinação.
Nós sabemos que os valoresb0= 31.6 eb1= 0,574 são estimativas de amostra dos parâmetros da população verdadeiros, mas desconhecidosb0eb1.Podemos construir intervalos de confiança de 95% para estimar melhor esses parâmetros.O valor crítico (ta/2) vem da distribuição t de Student com (n- 2) graus de liberdade.Nosso tamanho de amostra é de 50, por isso teríamos 48 graus de liberdade.O valor da tabela mais próximo é 2,009.
Intervalos de confiança de 95% parab0eb1
b0± ta/2ComB0= 31,6 ± 2,009 (4,177) = (23,21, 39,99)
b1± ta/2ComB1= 0,574 ± 2,009 (0,07648) = (0,4204, 0,7277)
O próximo passo é testar que a inclinação é significativamente diferente de zero usando um nível de significância de 5%.
H0:b1= 0 | H1:b1 ≠0 |
t = b1/ ComB1= 0,574/0,07648 = 7,50523
Temos 48 graus de liberdade e o valor crítico mais próximo da distribuição T de estudantes é de 2,009.A estatística de teste é maior que o valor crítico, portanto, rejeitaremos a hipótese nula.A inclinação é significativamente diferente de zero.Encontramos uma relação estatisticamente significativa entre a área florestal e o IBI.
A saída Minitab também relata a estatística de teste e o valor p para este teste.
A equação de regressão é IBI = 31,6 + 0,574 Área florestal | ||||
Preditor | Coef | SE coef | T | P |
Constante | 31.583 | 4.177 | 7.56 | 0,000 |
Área florestal | 0,57396 | 0,07648 | 7.50 | 0,000 |
S = 14.6505 | R-SQ = 54,0% | R-sq (adj) = 53,0% |
Análise de variação | |||||
Fonte | Df | Ss | EM | F | P |
Regressão | 1 | 12089 | 12089 | 56.32 | 0,000 |
Erro residual | 48 | 10303 | 215 | ||
Total | 49 | 22392 |
A estatística do teste t é de 7,50 com um valor p associado de 0,000.O valor p é menor que o nível de significância (5%), portanto, rejeitaremos a hipótese nula.A inclinação é significativamente diferente de zero.O mesmo resultado pode ser encontrado na estatística do teste F de 56,32 (7,5052= 56,32).O valor p é o mesmo (0,000) que a conclusão.
Intervalo de confiança paramy
Agora que criamos um modelo de regressão construído sobre uma relação significativa entre a variável preditora e a variável de resposta, estamos prontos para usar o modelo para
- estimando o valor médio deyPara um determinado valor dex
- prevendo um valor particular deyPara um determinado valor dex
Vamos examinar a primeira opção.Os dados de amostra denPares que foram extraídos de uma população foi usada para calcular os coeficientes de regressãob0eb1para o nosso modelo e nos fornece o valor médio deypara um valor específico dexAtravés do nosso modelo de população
.Para cada valor específico de x, há um y médio (my), que cai na equação da linha reta (uma linha de meios).Lembre -se de que pode haver muitos valores observados diferentes doypara um particularx, e supõe -se que esses valores tenham uma distribuição normal com uma média igual ae uma variação dea2.Uma vez que os valores calculados deb0eb1Varia de amostra para amostra, cada nova amostra pode produzir uma equação de regressão ligeiramente diferente.Cada novo modelo pode ser usado para estimar um valor deypor um valor dex.Quão longe nosso estimador vaiser da verdadeira população significa para esse valor dex?Isso depende, como sempre, da variabilidade em nosso estimador, medido pelo erro padrão.
Pode ser demonstrado que o valor estimado deyquandox=x0(algum valor especificado dex), é um estimador imparcial da média da população, e quep.é normalmente distribuído com um erro padrão de
Podemos construir um intervalo de confiança para estimar melhor este parâmetro (my) Seguindo o mesmo procedimento ilustrado anteriormente neste capítulo.
onde o valor crítico ta/2vem da tabela t de Student com (n- 2) graus de liberdade.
O software estatístico, como o Minitab, calculará os intervalos de confiança para você.Usando os dados do exemplo anterior, usaremos o Minitab para calcular o intervalo de confiança de 95% para a resposta média para uma área florestal média de 32 km.
Valores previstos para novas observações | |||
Newobs se encaixam | SE FIT | 95% | CI |
1 | 49.9496 | 2.38400 | (45.1562.54.7429) |
Se você provar muitas áreas que tiveram uma média de 32 km.De área florestal, sua estimativa do IBI médio seria de 45.1562 a 54.7429.
Você pode repetir esse processo muitas vezes para vários valores diferentes dexe plote os intervalos de confiança para a resposta média.
x | 95% IC |
20 | (37.13, 48,88) |
40 | (50,22, 58,86) |
60 | (61.43, 70.61) |
80 | (70,98, 84.02) |
100 | (79,88, 98.07) |
Observe como a largura do intervalo de confiança de 95% varia para os diferentes valores dex.Como a largura do intervalo de confiança é mais estreita para os valores centrais dex, segue quemyé estimado mais precisamente para valores dexnesta área.À medida que você avança em direção aos limites extremos dos dados, a largura dos intervalos aumenta, indicando que seria imprudente extrapolar além dos limites dos dados usados para criar esse modelo.
Intervalos de previsão
E se você quiser prever umespecialvalor deyquandox=x0?Ou, talvez você queira prever a próxima medida para um determinado valor dex?Este problema difere de construir um intervalo de confiança paramy.Em vez de construir um intervalo de confiança para estimar um parâmetro populacional, precisamos construir um intervalo de previsão.Optando por prever um valor particular deyincorre em algum erro adicional na previsão por causa do desvio deyda linha de meios.Examine a figura abaixo.Você pode ver que o erro na previsão tem dois componentes:
- O erro ao usar a linha ajustada para estimar a linha de meios
- O erro causado pelo desvio de Y da linha de meios, medido pora2
A variação da diferença entre y eé a soma dessas duas variações e forma a base para o erro padrão deusado para previsão.A forma resultante de um intervalo de previsão é a seguinte:
ondex0é o valor dado para a variável preditora,né o número de observações e ta/2é o valor crítico com (n- 2) graus de liberdade.
Software, como o Minitab, pode calcular os intervalos de previsão.Usando os dados do exemplo anterior, usaremos o Minitab para calcular o intervalo de previsão de 95% para o IBI de uma área florestal específica de 32 km.
Valores previstos para novas observações | |||
Novo obs | Ajustar | SE FIT | 95% pi |
1 | 49.9496 | 2.38400 | (20.1053, 79.7939) |
Você pode repetir esse processo muitas vezes para vários valores diferentes dexe plote os intervalos de previsão para a resposta média.
x | 95% pi |
20 | (13.01, 73.11) |
40 | (24,77, 84.31) |
60 | (36.21, 95,83) |
80 | (47.33, 107,67) |
100 | (58.15, 119.81) |
Observe que as bandas de intervalo de previsão são mais amplas que as bandas de intervalo de confiança correspondentes, refletindo o fato de que estamos prevendo o valor de uma variável aleatória em vez de estimar um parâmetro populacional.Esperamos que as previsões de um valor individual fossem mais variáveis do que as estimativas de um valor médio.
Transformações para linearizar as relações de dados
Em muitas situações, a relação entrexeynão é linear.Para simplificar o modelo subjacente, podemos transformar ou converterxouyou ambos para resultar em um relacionamento mais linear.Existem muitas transformações comuns, como logarítmico e recíproco.Incluindo termos de ordem superior emxtambém pode ajudar a linearizar o relacionamento entrexey.Abaixo estão algumas formas comuns de gráficos de dispersão e possíveis opções para transformações.No entanto, a escolha da transformação é frequentemente mais uma questão de tentativa e erro do que as regras definidas.
Exemplo 4
Um Forester precisa criar um modelo de regressão linear simples para prever o volume de árvores usando a altura do diâmetro-breast (DBH) para árvores de bordo de açúcar.Ele coleta DBH e volume para 236 árvores de bordo de açúcar e lotes de volume versus DBH.Dada a abaixo, está o gráfico de dispersão, o coeficiente de correlação e a saída de regressão do Minitab.
O coeficiente de correlação linear de Pearson é 0,894, o que indica uma relação forte, positiva e linear.No entanto, o gráfico de dispersão mostra uma relação não linear distinta.
Análise de regressão: volume versus dbh
A equação de regressão é volume = - 51,1 + 7,15 dbh | ||||
Preditor | Coef | SE coef | T | P |
Constante | -51.097 | 3.271 | -15.62 | 0,000 |
dbh | 7.1500 | 0,2342 | 30.53 | 0,000 |
S = 19.5820 | R-sq = 79,9% | R-sq (adj) = 79,8% |
Análise de variação | |||||
Fonte | Df | Ss | EM | F | P |
Regressão | 1 | 357397 | 357397 | 932.04 | 0,000 |
Erro residual | 234 | 89728 | 383 | ||
Total | 235 | 447125 |
O r2é 79,9% indicando um modelo bastante forte e a inclinação é significativamente diferente de zero.No entanto, tanto o gráfico residual quanto o gráfico de probabilidade normal residual indicam problemas sérios com esse modelo.Uma transformação pode ajudar a criar uma relação mais linear entre volume e DBH.
O volume foi transformado no log natural do volume e plotado contra DBH (consulte o gráfico de dispersão abaixo).Infelizmente, isso pouco fez para melhorar a linearidade desse relacionamento.O Forester levou a transformação natural do DBH.O gráfico de dispersão do log natural do volume versus o log natural do DBH indicou uma relação mais linear entre essas duas variáveis.O coeficiente de correlação linear é 0,954.
A saída de análise de regressão do Minitab é dada abaixo.
Análise de regressão: LNVOL vs. LNDBH
A equação de regressão é lnvol = - 2,86 + 2,44 lndbh | ||||
Preditor | Coef | SE coef | T | P |
Constante | -2.8571 | 0,1253 | -22.80 | 0,000 |
lndbh | 2.44383 | 0.05007 | 48.80 | 0,000 |
S = 0,327327 | R-sq = 91,1% | R-sq (adj) = 91,0% |
Análise de variação | |||||
Fonte | Df | Ss | EM | F | P |
Regressão | 1 | 255.19 | 255.19 | 2381.78 | 0,000 |
Erro residual | 234 | 25.07 | 0.11 | ||
Total | 235 | 280.26 |
O modelo usando os valores transformados de volume e DBH tem uma relação mais linear e um coeficiente de correlação mais positivo.A inclinação é significativamente diferente de zero e o r2aumentou de 79,9% para 91,1%.O gráfico residual mostra um padrão mais aleatório e o gráfico de probabilidade normal mostra alguma melhoria.
Existem muitas combinações de transformação possíveis para linearizar os dados.Cada situação é única e o usuário pode precisar tentar várias alternativas antes de selecionar a melhor transformação paraxouyou ambos.
Soluções de software
Minitab
A saída Minitab é mostrada acima no Ex.4.