Métodos Estatísticos Multivariados - 4.ed.

Visualizações: 32
Classificação: (0)

Livro que apresenta uma visão geral dos métodos multivariados, sem se aprofundar nos detalhes matemáticos. O estilo de texto é claro e conciso, com exemplos das áreas de ciências biológicas e ambientais. Esta edição inclui o código R para cada uma das análises descritas, embora qualquer pacote estatístico padrão possa ser utilizado.

 

13 capítulos

Formato Comprar item avulso Adicionar à Pasta

Capítulo 1 - O material de análise multivariada

PDF Criptografado

Capítulo 1

O material de análise multivariada

1.1 Exemplos de dados multivariados

Os métodos estatísticos descritos em textos elementares são na maioria métodos univariados porque tratam somente da análise de variação em uma única variável aleatória. Por outro lado, o ponto principal de uma análise multivariada é considerar várias variáveis relacionadas simultaneamente, sendo todas consideradas igualmente importantes, pelo menos inicialmente. O valor potencial dessa abordagem mais geral pode ser visto por meio de alguns exemplos.

Exemplo 1.1 Pardais sobreviventes de tempestade

Após uma forte tempestade em 1º de fevereiro de 1898, diversos pardais moribundos foram levados ao laboratório biológico de Hermon Bumpus na Universidade de Brown em Rhode Island. Subsequentemente, cerca de metade dos pássaros morreu, e Bumpus viu isso como uma oportunidade de encontrar suporte para a teoria da seleção natural de Charles Darwin.

Para esse fim, ele fez oito medidas morfológicas em cada pássaro, e também os pesou. Os resultados de cinco das medidas são mostrados na Tabela

 

Capítulo 2 - Álgebra matricial

PDF Criptografado

Capítulo 2

Álgebra matricial

2.1 �A necessidade de álgebra matricial

A teoria de métodos estatísticos multivariados pode ser explicada razoavelmente bem somente com o uso de alguma álgebra matricial. Por essa razão, é

útil, se não essencial, ter pelo menos algum conhecimento nesta área da matemática. Isso vale mesmo para aqueles que estão interessados em usar os métodos somente como ferramentas. À primeira vista, a notação de álgebra matricial

é um pouco amedrontadora. No entanto, não é difícil entender os princípios básicos, desde que alguns detalhes sejam aceitos na fé.

2.2 �Matrizes e vetores

Uma matriz m × n é um arranjo de números com m linhas e n colunas, considerado como uma única entidade, da forma:

Se m = n, então ela é uma matriz quadrada. Se existe somente uma coluna, como em

30  Métodos Estatísticos Multivariados: Uma Introdução então ela é chamada de vetor coluna. Se existe somente uma linha, como

então ela é chamada de vetor linha. O negrito é usado para indicar matrizes e vetores.

 

Capítulo 3 - Representação de dados multivariados

PDF Criptografado

Capítulo 3

Representação de dados multivariados

3.1 �O problema da representação de muitas variáveis em duas dimensões

Gráficos precisam ser apresentados em duas dimensões, tanto sobre papel quanto na tela de um computador. É, portanto, um processo simples e direto mostrar uma variável representada sobre um eixo vertical contra uma segunda variável representada sobre um eixo horizontal. Por exemplo, a Figura 3.1 mostra a extenção alar representada contra o comprimento total para as 49 pardocas medidas por Hermon Bumpus no estudo da seleção natural (descrito no Exemplo 1.1). Tais representações permitem também mostrar uma ou mais outras características dos objetos em estudo. Por exemplo, no caso dos pardais de Bumpus, sobreviventes e não sobreviventes estão também indicados. Esses gráficos são simples e podem ser produzidos em Excel ou outra planilha eletrônica, bem como em todos os pacotes estatísticos padrão. Também podem ser produzidos usando código R, fornecido no apêndice deste capítulo, para ambos os tipos de gráfico e os mais complicados gráficos que são descritos a seguir.

 

Capítulo 4 - Testes de significância com dados multivariados

PDF Criptografado

Capítulo 4

Testes de significância com dados multivariados

4.1 �Testes simultâneos em várias variáveis

Quando são coletados dados para várias variáveis sobre as mesmas unidades amostrais, é sempre possível examinar as variáveis uma de cada vez no que diz respeito a testes de significância. Por exemplo, se as unidades experimentais estão em dois grupos, então uma diferença entre as médias para os dois grupos pode ser testada separadamente para cada variável. Infelizmente, existe um senão para essa abordagem simples pelo fato de que ela requer o uso repetido de testes de significância, cada um deles tendo uma certa probabilidade de levar a uma conclusão errada. Como será discutida posteriormente na Seção 4.4, a probabilidade de falsamente encontrar pelo menos uma diferença significante acumula com o número de testes aplicados, de modo que ela pode se tornar inaceitavelmente grande.

Há maneiras de ajustar níveis de significância para permitir que muitos testes sejam aplicados ao mesmo tempo, mas pode ser preferível conduzir um

 

Capítulo 5 - Medição e teste de distâncias multivariadas

PDF Criptografado

Capítulo 5

Medição e teste de distâncias multivariadas

5.1 �Distâncias multivariadas

Muitos problemas multivariados podem ser vistos em termos de distâncias entre observações individuais, entre amostras de observações ou entre populações de observações. Por exemplo, considerando os dados na Tabela 1.4 sobre medidas de mandíbulas de cães, lobos, chacais, cuons e dingos, é sensível perguntar quão longe um desses grupos está dos outros seis grupos. A idéia então

é que se dois animais têm médias similares das medidas da mandíbula, então eles estão próximos; se eles têm medidas médias bem diferentes, então estão distantes um do outro. Neste capítulo, este é o conceito de distância usado.

Um grande número de medidas de distância tem sido proposto e usado em análise multivariada. Somente algumas das mais comuns serão mencionadas aqui. Deve-se alertar que medir distâncias é um tópico em que um pouco de arbitrariedade parece inevitável.

Uma situação é que existem n objetos sendo considerados, com um número de medidas sendo tomadas sobre cada um deles, e as medidas são de dois tipos.

 

Capítulo 6 - Análise de componentes principais

PDF Criptografado

Capítulo 6

Análise de componentes principais

6.1 �Definição de componentes principais

A técnica de análise de componentes principais foi inicialmente descrita por

Karl Pearson (1901). Ele aparentemente acreditou que era a solução correta para alguns dos problemas de interesse para biométricos naquele tempo, apesar de ter proposto um método prático de cálculo para duas ou três variáveis apenas.

Uma descrição de métodos computacionais práticos veio muito mais tarde, feita por Hotelling (1933). Mesmo então, os cálculos eram extremamente amedrontadores para mais do que poucas variáveis porque tinham que ser feitos à mão.

Somente após os computadores eletrônicos terem se tornado disponíveis generalizadamente é que a técnica de componentes principais alcançou amplo uso.

A análise de componentes principais é um dos métodos multivariados mais simples. O objetivo da análise é tomar p variáveis X1, X2, ..., Xp e encontrar combinações destas para produzir índices Z1, Z2, ..., Zp que sejam não correlacionados na ordem de sua importância, e que descrevam a variação nos dados. A falta de correlação significa que os índices estão medindo diferentes “dimensões” dos dados, e a ordem é tal que Var(Z1) ≥ Var(Z2) ≥ ... ≥ Var(Zp), em que Var(Zi) denota a variância de Zi. Os índices Z são, então, os componentes principais. Ao fazer uma análise de componentes principais, há sempre a esperança de que as variâncias da maioria dos índices serão tão baixas a ponto de serem desprezíveis. Neste caso, a maior parte da variação no conjunto de dados completos pode ser descrita adequadamente pelas poucas variáveis Z com variâncias que não são desprezíveis, e algum grau de economia é então alcançado.

 

Capítulo 7 - Análise de fatores

PDF Criptografado

Capítulo 7

Análise de fatores

7.1 �O modelo de análise de fatores

A análise de fatores tem objetivos similares àqueles da análise de componentes principais. A ideia básica é que pode ser possível descrever um conjunto de p variáveis X1, X2, ..., Xp em termos de um número menor de índices ou fatores e, no processo, obter uma melhor compreensão do relacionamento destas variáveis. Há, no entanto, uma diferença importante. A análise de componentes principais não é baseada em um modelo estatístico particular, enquanto que a análise de fatores é baseada em um modelo.

O desenvolvimento inicial de análise de fatores é o resultado do trabalho de Charles Spearman. Enquanto estudava correlações entre escores de testes de estudantes de vários tipos, ele notou que muitas correlações observadas poderiam estar contidas em um modelo simples (Spearman, 1904). Por exemplo, em um caso ele obteve a matriz de correlações mostrada na Tabela 7.1, para meninos de uma escola preparatória e seus escores em testes em clássicos, francês, inglês, matemática, discriminação de tom e música. Ele notou que esta matriz tinha a interessante propriedade de que quaisquer duas linhas eram quase proporcionais se as diagonais fossem ignoradas. Então para as linhas clássicos e inglês na Tabela 7.1, há razões:

 

Capítulo 8 - Análise de função discriminante

PDF Criptografado

Capítulo 8

Análise de função discriminante

8.1 O problema da separação de grupos

O problema ao qual se direciona a análise de função discriminante trata de avaliar o quanto é possível separar dois ou mais grupos de indivíduos, sendo dadas medidas para estes indivíduos em várias variáveis. Por exemplo, com os dados na Tabela 1.1 sobre cinco medidas do corpo de 21 pardais sobreviventes e

28 não sobreviventes, é interessante considerar se é possível usar as medidas do corpo para separar sobreviventes e não sobreviventes. Também, para os dados mostrados na Tabela 1.2 sobre quatro dimensões de crânios egípcios para amostras de cinco períodos de tempo, é razoável considerar se as medidas podem ser usadas para atribuir crânios a diferentes períodos de tempo.

No caso geral, haverá m amostras aleatórias de diferentes grupos com tamanhos n1, n2, ..., nm, e valores estarão disponíveis para p variáveis X1, X2, ...,

Xp para cada membro de amostra. Então os dados para uma análise de função discriminante tomam a forma mostrada na Tabela 8.1. Os dados para uma análise de função discriminante não necessitam ser padronizados para ter médias zero e variâncias unitárias antes de começar a análise. Isso porque o resultado de uma análise de função discriminante não é afetado de nenhuma forma importante pelo escalonamento de variáveis individuais.

 

Capítulo 9 - Análise de agrupamentos

PDF Criptografado

Capítulo 9

Análise de agrupamentos

9.1 �Usos de análise de agrupamentos

Suponha que exista uma amostra de n objetos, cada um dos quais tem um escore em p variáveis. Então a ideia de uma análise de agrupamentos é usar os valores das variáveis para planejar um esquema para agrupar os objetos em classes de modo que objetos similares estejam na mesma classe. O método usado precisa ser completamente numérico, e o número de classes não é usualmente conhecido. Este problema é claramente mais difícil do que o problema para uma análise de função discriminante que foi considerado no capítulo anterior, porque para começar com análise de função discriminante, os grupos são conhecidos.

Há muitas razões pelas quais uma análise de agrupamentos pode valer a pena. Pode ser uma questão de encontrar os verdadeiros grupos que presumimos realmente existirem. Por exemplo, em psiquiatria tem havido discordância sobre a classificação de pacientes depressivos, e a análise de agrupamentos tem sido usada para definir grupos objetivos. A análise de agrupamentos pode também ser útil para redução de dados. Por exemplo, um grande número de cidades pode potencialmente ser usado como teste de mercado para um novo produto, mas é somente viável usar algumas. Se colocarmos as cidades em um número pequeno de grupos de cidades similares, então um membro de cada grupo pode ser usado para o teste de mercado. Alternativamente, se a análise de agrupamentos gerar grupos inesperados, então isso poderia, em si mesmo, sugerir relacionamentos a serem investigados.

 

Capítulo 10 - Análise de correlação canônica

PDF Criptografado

Capítulo 10

Análise de correlação canônica

10.1 �Generalização de uma análise de regressão múltipla

Em alguns conjuntos de dados multivariados, as variáveis se dividem naturalmente em dois grupos. Uma análise de correlação canônica pode então ser usada para investigar os relacionamentos entre os dois grupos. Um caso em questão se refere aos dados que são fornecidos na Tabela 1.3. Lá consideramos

16 colônias de borboletas Euphydryas editha na Califórnia e em Oregon. Para cada colônia, estão disponíveis valores para quatro variáveis ambientais e seis frequências gênicas. Uma questão óbvia a ser considerada é se existem relações entre as frequências gênicas e as variáveis ambientais. Uma maneira de investigar isto é por meio de uma análise de correlação canônica.

Outro exemplo foi fornecido por Hotelling (1936), no qual ele descreveu uma análise de correlação canônica pela primeira vez. Este exemplo envolveu os resultados de testes para velocidade de leitura (X1), potência de leitura (X2), velocidade aritmética (Y1) e potência aritmética (Y2) para 140 crianças estudantes da sétima série. A questão específica que foi considerada foi se habilidade de leitura (como medida por X1 e X2) está ou não relacionada com habilidade aritmética (como medida por Y1 e Y2).

 

Capítulo 11 - Escalonamento multidimensional

PDF Criptografado

Capítulo 11

Escalonamento multidimensional

11.1 �Construção de um mapa de uma matriz de distâncias

O escalonamento multidimensional é projetado para construir um diagrama mostrando as relações entre um certo número de objetos, sendo dada somente uma tabela de distâncias entre objetos. O diagrama é então um tipo de mapa que pode ser em uma dimensão (se os objetos caem em uma reta), em duas dimensões (se os objetos caem em um plano), em três dimensões (se os objetos podem ser representados por pontos no espaço) ou em um número mais alto de dimensões (caso em que uma simples representação geométrica não é possível).

O fato de ser possível construir um mapa de uma tabela de distâncias pode ser visto considerando o exemplo de quatro objetos – A, B, C e D – mostrados na

Figura 11.1. As distâncias entre os objetos são dadas na Tabela 11.1. Por exemplo, a distância de A a B, a qual é a mesma que a distância de B a A, é 6,0, enquanto que a distância de cada objeto a si mesmo é sempre 0,0. Parece plausível que o mapa possa ser reconstruído de um arranjo de distâncias. Entretanto, é também aparente que uma imagem espelhada do mapa, como mostrado na Figura 11.2, terá o mesmo arranjo de distâncias entre objetos. Consequentemente, parece claro que uma reconstituição do mapa original estará sujeita a uma possível reversão deste tipo.

 

Capítulo 12 - Ordenação

PDF Criptografado

Capítulo 12

Ordenação

12.1 �O problema da ordenação

A palavra ordenação para um biólogo significa essencialmente o mesmo que escalonamento para um cientista social. Ambas as palavras descrevem o processo de produção de um pequeno número de variáveis que podem ser usadas para descrever a relação entre um grupo de objetos, começando ou de uma matriz de distâncias ou similaridades entre objetos ou dos valores de algumas variáveis medidas em cada objeto. Deste ponto de vista, muitos dos métodos que foram descritos em capítulos anteriores podem ser usados para ordenação, e alguns dos exemplos se relacionam com este processo. Em particular, representação gráfica de pardocas contra as duas primeiras componentes principais das medidas de tamanho (Exemplo 5.1), representação gráfica de países europeus contra as duas primeiras componentes principais para variáveis de emprego (Exemplo

5.2), produção de um mapa da Ilha Sul da Nova Zelândia de uma tabela de distâncias entre cidades por escalonamento multidimensional (Exemplo 11.1), e representação gráfica de parlamentares de Nova Jersey contra eixos obtidos por escalonamento multidimensional baseado em comportamento de votação

 

Capítulo 13 - Epílogo

PDF Criptografado

Capítulo 13

Epílogo

13.1 O próximo passo

Ao escrever este livro, os objetivos foram propositadamente limitados no que se refere a conteúdo. Estes objetivos terão sido alcançados se alguém que tenha lido cuidadosamente os capítulos anteriores tenha uma ideia honesta do que pode e do que não pode ser obtido pelos métodos estatísticos multivariados mais largamente usados. Nossa esperança é de que o livro venha a ajudar muitas pessoas a dar o primeiro passo em “uma jornada de mil quilômetros”.

Para aqueles que deram este primeiro passo, a maneira de ir adiante é ganhar experiência em métodos multivariados analisando diferentes conjuntos de dados e vendo quais resultados são obtidos. Como em outras áreas de estatística aplicada, competência em análise multivariada requer prática.

Desenvolvimentos recentes em análise multivariada têm sido feitos no campo proximamente relacionado à mineração de dados (data mining), o qual se preocupa com extração de informação de conjuntos de dados muito grandes.

 

Detalhes do Produto

Livro Impresso
eBook
Capítulos

Formato
PDF
Criptografado
Sim
SKU
BPP0000270755
ISBN
9788582604991
Tamanho do arquivo
6,6 MB
Impressão
Desabilitada
Cópia
Desabilitada
Vocalização de texto
Não
Formato
PDF
Criptografado
Sim
Impressão
Desabilitada
Cópia
Desabilitada
Vocalização de texto
Não
SKU
Em metadados
ISBN
Em metadados
Tamanho do arquivo
Em metadados