Análise de dados categorizados

Visualizações: 22
Classificação: (0)

Este livro aborda a análise de dados categorizados sob um enfoque sui generis, em que se detalham as questões de interesse geradas pelos problemas práticos que originaram os dados, se explicitam os modelos estatísticos empregados para respondê-las, se esmiúça a metodologia necessária para as inferências daí decorrentes e finalmente, se pormenorizam os resultados práticos, evidenciando suas contribuições e limitações. O texto é escrito com o cuidado de equilibrar o rigor almejado por pesquisadores com a precisão e a clareza requeridas por usuários de técnicas estatísticas. Nesse sentido, vários exemplos são analisados de uma maneira bastante detalhada, permitindo que o livro possa ser útil tanto para investigadores atraídos pelos meandros da metodologia estatística quanto por utilizadores conscienciosos interessados em análises estatísticas bem fundamentadas.

FORMATOS DISPONíVEIS

14 capítulos

Formato Comprar item avulso Adicionar à Pasta

Capítulo 1 - Introdução

PDF Criptografado

Capı́tulo 1

Introdução

1.1

Noções preliminares sobre dados categorizados e exemplos

Este livro debruça-se sobre métodos que foram desenvolvidos para análise de dados discretos relativos a uma ou, mais frequentemente, duas ou mais variáveis definidas qualitativamente através de um número finito de valores designados por nı́veis ou categorias. Daı́ as designações de variáveis categorizadas e de dados categorizados. Consoante o número de categorias for 2, 3 ou maior que 3, as variáveis se dizem dicotómicas (ou binárias), tricotómicas ou politómicas, respectivamente.

A Análise de Dados Categorizados é assim uma parte integrante da Análise

Multivariada, que visa evidenciar e interpretar a informação relevante que está contida em dados discretos provenientes de contagens de eventos ou de unidades (pessoas, lugares, objectos) possuindo certas caracterı́sticas ou atributos definidos pela combinação das categorias de duas ou mais variáveis de interesse (ou apenas categorias de uma variável). A análise de dados discretos univariados (e.g., gerados dos modelos binomial, hipergeométrico, binomial negativo, Poisson), descrita na larga maioria dos textos de Estatı́stica e de Inferência Estatı́stica, surge como uma particularização dos métodos multivariados que serão aqui abordados.

 

Capítulo 2 - Modelos probabilísticos

PDF Criptografado

Capı́tulo 2

Modelos probabilı́sticos

Neste capı́tulo descrevem-se os modelos probabilı́sticos usualmente assumidos para explicar a ocorrência dos dados obtidos (de acordo com algum esquema amostral), na base dos quais são traçadas as inferências de interesse. Destacam-se ainda as interrelações existentes entre eles dada a sua relevância para a formulação dos objectivos analı́ticos e explicação de certos resultados inferenciais, mencionados em capı́tulos posteriores.

2.1

Processos de amostragem

A escolha de um determinado modelo probabilı́stico depende não só do delineamento amostral mas também dos objectivos de análise. Se, por um lado, existem esquemas amostrais incompatı́veis com os fins analı́ticos pretendidos, por outro, certos propósitos inferenciais podem ser atingidos através de vários tipos de delineamento.

Para ilustrar estas afirmações, suponha que se pretende realizar uma sondagem numa determinada região a fim de se ter uma ideia da força eleitoral de um determinado candidato presidencial nesse meio. Em particular, pretende-se saber se a atitude de apoio ao candidato está ou não relacionada com a faixa etária da população dessa região. Para isso decide-se abordar os transeuntes inquirindo se apoiam ou não o referido candidato e se a sua idade é ou não inferior a 40 anos.

 

Capítulo 3 - Modelos estruturais lineares

PDF Criptografado

Capı́tulo 3

Modelos estruturais lineares

3.1

Introdução

No capı́tulo anterior foi dada já uma ideia de algumas questões que são consideradas relevantes na análise de dados categorizados, através de exemplos concretos. De uma forma geral, as questões de interesse estão relacionadas com uma redução do número de parâmetros do modelo probabilı́stico adoptado, exprimindo, pois, uma simplificação da estrutura paramétrica do modelo. Daı́ o nome de modelos estruturais para a expressão matemática dessas questões.

Convém observar, desde já, que a esses modelos estruturais devem ser associadas as restrições (naturais) eventualmente impostas pelo delineamento amostral, como sucede com o modelo Produto de Multinomiais (e, em particular, com o modelo

Multinomial). Para a sua explicitação, considere-se que o conjunto das c celas da tabela esteja particionado em s subconjuntos Cq , q = 1, . . . s, em cada um dos quais a soma das probabilidades das celas correspondentes é 1. Esta partição pode ser definida pela matriz D = (d1 , . . . , ds ), onde cada vector dq , q = 1, . . . , s de dimensão igual a c, indica as celas de Cq da seguinte forma: as suas componentes são 1 ou 0 consoante as celas correspondentes pertencem ou não a Cq . Note-se que, por definição, as colunas de D são ortogonais e, por conseguinte, o subespaço M(D) gerado por elas é um subespaço s-dimensional de IRc .

 

Capítulo 4 - Modelos log-lineares para tabelas sem variáveis explicativas

PDF Criptografado

Capı́tulo 4

Modelos log-lineares para tabelas sem variáveis explicativas

Muitas das hipóteses de relevância para a análise de dados categorizados envolvem relações multiplicativas entre os parâmetros dos modelos probabilı́sticos usualmente adoptados. Este é o caso das hipóteses de multiplicatividade (2.3) e de independência

(2.5) descritas no Capı́tulo 2 no contexto dos modelos Produto de distribuições de

Poisson e Multinomial. Tendo por base a maior facilidade no tratamento matemático de estruturas lineares em oposição às estruturas não lineares, a linearização dos modelos mencionados acima dão margem aos chamados modelos log-lineares que são o objecto deste capı́tulo. Mais especificamente, trata-se aqui de modelos com estrutura linear no logaritmo das médias ou das probabilidades das celas de tabelas de contingência envolvendo apenas variáveis respostas com o intuito de descrever padrões de associação entre elas. Deixa-se para o Capı́tulo 5 o tratamento de modelos com este tipo de estrutura apropriados para tabelas envolvendo alguma variável explicativa.

 

Capítulo 5 - Modelos log-lineares para tabelas com variáveis explicativas

PDF Criptografado

Capı́tulo 5

Modelos log-lineares para tabelas com variáveis explicativas

Na sequência do capı́tulo anterior, este capı́tulo continua a debruçar-se sobre o tipo log-linear de modelos estruturais mas agora inseridos em tabelas em que algumas das variáveis são explicativas, de especial relevância para modelos Produto de Multinomiais. Estes modelos log-lineares, construı́dos à semelhança do descrito no capı́tulo anterior, são formulados equivalentemente como modelos lineares em logaritmos de chances das probabilidades das celas e postos em correspondência com apropriados modelos log-lineares para um quadro Multinomial ou Produto de distribuições de

Poisson, referidos nas várias secções do Capı́tulo 4.

5.1

As várias formulações log-lineares

Em conformidade com o Capı́tulo 2, a estrutura das tabelas com alguma variável considerada explicativa, seja por delineamento ou por condicionamento, vai ser enquadrada no modelo Produto de Multinomiais. Em termos da tabela genérica s × r descrita no Capı́tulo 1, este modelo é definido pela famı́lia de distribuições Multinomiais independentes, Mr−1 (nq· , π q ), onde π q = (θ(q)m , m = 1, . . . , r)0 com 10r π q = 1, para q = 1, . . . , s.

 

Capítulo 6 - Modelos funcionais lineares

PDF Criptografado

Capı́tulo 6

Modelos funcionais lineares

Neste capı́tulo considera-se uma ampla classe de modelos estruturais que engloba aqueles discutidos anteriormente. Inicia-se a exposição descrevendo-se alguns modelos log-lineares cujas particularidades não justificam a sua inclusão no Capı́tulo 5; além disso apresentam-se algumas extensões desses modelos denominadas modelos log-lineares generalizados. Aborda-se em seguida a classe dos modelos funcionais lineares, que essencialmente engloba todos aqueles descritos até aqui. Evidentemente focam-se apenas aquelas subclasses de modelos mais comuns, deixando para os exemplos dos demais capı́tulos a descrição de casos mais especı́ficos. Termina-se o capı́tulo com uma breve exposição sobre os chamados modelos lineares generalizados numa classe ainda mais abrangente (sob o ponto de vista estrutural) que tem atraı́do a atenção de inúmeros pesquisadores nas últimas duas décadas.

6.1

Modelos log-lineares generalizados

 

Capítulo 7 - A metodologia de máxima verosimilhança

PDF Criptografado

Capı́tulo 7

A metodologia de máxima verosimilhança

Considere-se uma tabela genérica formada por c celas com vector de frequências n = (n1 , . . . , nc )0 , descrito por um modelo probabilı́stico indexado pelo vector de c médias µ = (µ1 , . . . , µc )0 ∈ IR+

, cuja função de probabilidade é denotada por f (n|µ).

O objectivo central da análise da tabela é procurar um modelo estrutural interpretativamente tão simples quanto possı́vel que propicie um bom ajustamento aos dados.

Exprima-se um modelo estrutural a ajustar a µ, em termos gerais, por

H:

µ = µ(β)

(7.1)

c em que β é um vector de p ≤ c parâmetros desconhecidos. O subconjunto de IR+ de valores de µ considerado admissı́vel por este modelo é gerado pela variação de

β ao longo do espaço correspondente (IRp ) através da função µ(β), suposta bem comportada no sentido de ser identificável (recorde-se a Nota de Capı́tulo 4.1) e continuamente diferenciável (até à ordem dois) com matriz jacobiana c × p, M(β) =

 

Capítulo 8 - Análise de modelos lineares

PDF Criptografado

Capı́tulo 8

Análise de modelos lineares

O objectivo deste capı́tulo é ilustrar a aplicação da metodologia de máxima verosimilhança descrita em termos gerais no capı́tulo anterior, ao ajustamento de modelos estritamente lineares que foram focados no Capı́tulo 3. Assim, na Secção 8.1 consideram-se os modelos de simetria enquanto que a Secção 8.2 é devotada aos modelos de homogeneidade para os quais se descreve um algoritmo capaz de aplicação genérica para obtenção das estimativas restritas. A orientação desta secção transmitese à Secção 8.3 na sua análise do modelo linear geral.

8.1

Modelos de simetria

Comece-se por considerar uma tabela bidimensional quadrada I 2 gerada pelo modelo

Multinomial com total de frequências N e vector de probabilidades θ = (θij , i, j =

PI PI

1, . . . I)0 , i=1 j=1 θij = 1. Neste cenário, admita-se que o interesse está em averiguar se a estrutura paramétrica da famı́lia de distribuições para n = (nij ) pode ser bem descrita pelo modelo de simetria (3.4), HS : θij = θji , para i < j.

 

Capítulo 9 - Análise de modelos log-lineares

PDF Criptografado

Capı́tulo 9

Análise de modelos log-lineares

Este capı́tulo de aplicação da metodologia MV ao ajustamento de modelos log-lineares inicia-se com uma descrição genérica da análise para qualquer tabela envolvendo apenas variáveis respostas, supostamente descrita pelo modelo Multinomial. Na

Subsecção 9.1.1 determinam-se “as” estatı́sticas suficientes, derivam-se as equações de verosimilhança e referem-se as distribuições assintóticas Normais de estimadores de (funções relevantes de) parâmetros log-lineares e das frequências esperadas.

Em seguida, concretizam-se os testes de ajustamento dos modelos e de hipóteses paramétricas visando a sua simplificação. A Subsecção 9.1.3 trata do problema de comparação destas inferências com as que se obtêm no quadro poissoniano mais abrangente.

As Secções 9.2 e 9.3 debruçam-se sobre a aplicação dos resultados da secção anterior a tabelas bidimensionais e multidimensionais, respectivamente. Na primeira descreve-se a análise sucessivamente dos modelos de independência, simetria, e algumas das suas generalizações, e de modelos ordinais. A Secção 9.3 ocupa-se sucessivamente dos modelos tridimensionais hierárquicos, de simetria e ordinais, e dos modelos tetradimensionais hierárquicos. A Secção 9.4 descreve os dois métodos iterativos mais usados na estimação (Newton-Raphson e ajustamento proporcional iterativo).

 

Capítulo 10 - Análise de modelos funcionais lineares

PDF Criptografado

Capı́tulo 10

Análise de modelos funcionais lineares

Ao contrário do que ocorre com a metodologia de Mı́nimos Quadrados Generalizados

(MQG), a ser explorada no Capı́tulo 11, em que é possı́vel propor uma forma geral para os estimadores dos parâmetros de modelos do tipo F(π) = Xβ, definidos em

(6.19) desde que o vector de funções F satisfaça certas condições de regularidade, os estimadores de Máxima Verosimilhança (MV) precisam de ser obtidos ad hoc. Quando

F é linear ou log-linear, i.e., quando o modelo (6.19) pode ser escrito como Aπ = Xβ, com a especificação (3.18) ou Aln π = Xβ, com a especificação (6.1), a metodologia de estimação, ajustamento de modelos e testes de hipóteses é essencialmente aquela apresentada nos Capı́tulos 8 e 9, respectivamente. Aqui, consideram-se os casos particulares de modelos funcionais lineares tratados no Capı́tulo 6. Mais especificamente, na Secção 10.1 aplica-se a metodologia MV a modelos log-lineares generalizados, incluindo aı́ alguns casos especiais de modelos log-lineares ordinários e não ordinários; na Secção 10.2, consideram-se modelos funcionais lineares propriamente ditos, dentre os quais destacam-se os modelos lineares nos logitos de razões continuadas e os modelos lineares nos logitos cumulativos. Na Secção 10.3, tratam-se brevemente os modelos de concordância enquanto a Secção 10.4 dedica-se aos modelos lineares generalizados.

 

Capítulo 11 - Metodologia de Mínimos Quadrados Generalizados

PDF Criptografado

Capı́tulo 11

Metodologia de Mı́nimos

Quadrados Generalizados

Embora a utilização da metodologia de mı́nimos quadrados generalizados (MQG) tenha uma extensa história para análise estatı́stica de dados contı́nuos, seu emprego em problemas com dados categorizados só teve ı́mpeto a partir do trabalho de Grizzle et al. (1969). Alicerçados em resultados de Bhapkar (1966), esse autores propuseram uma interessante alternativa à metodologia MV (discutida nos Capı́tulos 7, 8,

9 e 10) para análise de dados categorizados. Desde a publicação desse trabalho, a metodologia MQG vem sendo aplicada em diferentes situações como o demonstram

Forthofer & Koch (1973), Freeman Jr. et al. (1976), Imrey et al. (1981, 1982), Koch,

Singer & Stokes (1992), entre outros. Em função da importante contribuição do trabalho pioneiro de Grizzle, Starmer e Koch, muitas vezes a metodologia é chamada de metodologia GSK em sua homenagem. As suas maiores vantagens estão centradas na simplicidade das expressões dos estimadores e estatı́sticas de teste nas quais está baseada e na ampla gama de problemas aos quais pode ser aplicada. Apesar disso, poucos textos lhe dedicam atenção, e quando o fazem, a abordagem é apenas superficial, à excepção de Koch et al. (1985) por motivos óbvios. A orientação desse texto é a que se adopta neste capı́tulo.

 

Capítulo 12 - Análise de dados categorizados longitudinais

PDF Criptografado

Capı́tulo 12

Análise de dados categorizados longitudinais

Neste capı́tulo considera-se uma classe de problemas cujas particularidades merecem um tratamento especial, mais em função da forma pela qual os dados são coletados e dispostos tabularmente do que por razões metodológicas. Na Secção 12.1 apresentamse alguns exemplos para caracterizar o tipo de dados abordados aqui, explicitando as questões relevantes. Aı́ faz-se a distinção entre medidas repetidas e dados longitudinais, indicando por que este último tópico é o principal foco de atenção.

Na Secção 12.2 apresentam-se alguns modelos estruturais relevantes e descreve-se como a metodologia de mı́nimos quadrados generalizados pode ser utilizada para sua análise, ilustrando-a com aplicações concretas. Esse é o enfoque preconizado por Koch et al. (1992). Na Secção 12.3, discute-se brevemente a aplicação das metodologias de máxima verosimilhança e de equações de estimação generalizadas, esta última popularmente conhecida pela sigla GEE (de Generalized Estimating Equations).

 

Capítulo 13 - Análise de dados incompletos

PDF Criptografado

Capı́tulo 13

Análise de dados incompletos

Este capı́tulo debruça-se sobre o problema da análise de dados categorizados quando os dados incluem unidades cuja resposta a todas as variáveis não é integralmente conhecida. Pretende-se nele descrever a aplicação das abordagens focadas neste livro, com realce para a metodologia de máxima verosimilhança, baseadas num modelo amostral Multinomial munido de uma estrutura geralmente não informativa para o processo de omissão (ou não-resposta). Os resultados dessa aplicação são desenvolvidos em formulação matricial apropriada para a sua implementação computacional de uma forma independente da configuração da tabela de contingência e do padrão de incompletude dos dados.

A Secção 13.1 é uma secção introdutória que visa descrever a estrutura das observações registadas no problema de dados categorizados incompletos. A Secção 13.2 dedica-se à modelação probabilı́stica e os vários tipos de modelos estruturais para o processo de omissão capazes de permitir a realização das inferências de interesse. Na

 

Capítulo 14 - Métodos de Inferência Condicional

PDF Criptografado

Capı́tulo 14

Métodos de Inferência

Condicional

A análise estatı́stica dos capı́tulos precedentes apoia-se pesadamente em aproximações para distribuições amostrais de estimadores e estatı́sticas de teste, válidas para grandes amostras. No entanto, não há orientações simples e incisivas em relação às condições de adequabilidade dessas aproximações. Sabe-se mesmo que, em tabelas com repartição desequilibrada pelas celas de um número grande de observações, os resultados de distintos métodos assintóticos podem ser bastante diferenciados. A fortiori, o panorama não é melhor quando se lida com tabelas esparsas, como é comum em estudos longitudinais, ou muito simplesmente, com tabelas de dimensão amostral reduzida. Daı́ a necessidade de recurso a métodos alternativos não baseados em aproximações para grandes amostras que, hoje em dia, vêem a sua aplicação facilitada devido à existência de meios computacionais potentes e de algoritmos eficientes e à disponibilidade de software estatı́stico. Entre eles estão os denominados métodos condicionais exactos, de estrutura frequencista, cuja descrição ocupará grande parte deste capı́tulo.

 

Detalhes do Produto

Livro Impresso
Book
Capítulos

Formato
PDF
Criptografado
Sim
SKU
BPDP000288044
ISBN
9788521216537
Tamanho do arquivo
3,3 MB
Impressão
Desabilitada
Cópia
Desabilitada
Vocalização de texto
Não
Formato
PDF
Criptografado
Sim
Impressão
Desabilitada
Cópia
Desabilitada
Vocalização de texto
Não
SKU
Em metadados
ISBN
Em metadados
Tamanho do arquivo
Em metadados