Monday 21 August 2017

Handling Missing Data In Stata Forex


16.1.2 160 Principios gerais para lidar com dados em falta Existe uma grande literatura de métodos estatísticos para lidar com dados perdidos. Aqui, revisamos brevemente alguns conceitos-chave e fazemos algumas recomendações gerais para os autores da revisão Cochrane. É importante pensar por que os dados podem estar faltando. Os estatísticos costumam usar os termos que faltam aleatoriamente e não faltam aleatoriamente para representar diferentes cenários. Dizem que os dados estão faltando aleatoriamente se o fato de que eles estão faltando não estiver relacionado aos valores reais dos dados faltantes. Por exemplo, se alguns questionários de qualidade de vida fossem perdidos no sistema postal, provavelmente não haveria relação com a qualidade de vida dos participantes do teste que preencheram os formulários. Em algumas circunstâncias, os estatísticos distinguem entre os dados faltando aleatoriamente e os dados perdidos completamente ao acaso, embora, no contexto de uma revisão sistemática, é improvável que a distinção seja importante. Os dados que estão faltando ao acaso podem não ser importantes. As análises baseadas nos dados disponíveis tendem a ser imparciais, embora com base em um tamanho de amostra menor do que o conjunto de dados original. Dizem que os dados não estão faltando aleatoriamente se o fato de que eles estão faltando está relacionado aos dados reais que faltam. Por exemplo, em um julgamento de depressão, os participantes que tiveram uma recaída de depressão podem ser menos propensos a participar da entrevista final de acompanhamento e mais provável que tenham dados de resultados perdidos. Tais dados não são ignoráveis ​​no sentido de que uma análise dos dados disponíveis por si só será tipicamente tendenciosa. O viés de publicação e o viés de notificação seletiva conduzem, por definição, a dados que não estão faltando aleatoriamente, e o atrito e as exclusões de indivíduos nos estudos geralmente fazem também. As principais opções para lidar com dados em falta são. 1.160160160160160160160analizando apenas os dados disponíveis (ou seja, ignorando os dados faltantes) 2.160160160160160160160imputando os dados ausentes com valores de substituição e tratando estes como se fossem observados (por exemplo, a última observação realizada, imputando um resultado assumido, como assumindo que todos eram fracos resultados, imputando A média, imputando com base em valores previstos de uma análise de regressão) 3.160160160160160160160mputar os dados em falta e contabilizando o fato de que estes foram imputados com incerteza (por exemplo, imputação múltipla, métodos de imputação simples (como ponto 2) com ajuste ao erro padrão) 4.160160160160160160160 Usando modelos estatísticos para permitir dados faltantes, fazendo suposições sobre suas relações com os dados disponíveis. A opção 1 pode ser apropriada quando os dados podem ser considerados ausentes aleatoriamente. As opções 2 a 4 são tentativas de endereço de dados que não faltam aleatoriamente. A opção 2 é prática na maioria das circunstâncias e é muito comum em análises sistemáticas. No entanto, não reconhece a incerteza nos valores e resultados imputados, normalmente, em intervalos de confiança que são muito estreitos. As opções 3 e 4 exigiriam o envolvimento de um estatístico experiente. Quatro recomendações gerais para lidar com dados faltantes nas revisões Cochrane são as seguintes. Sempre que possível, entre em contato com os pesquisadores originais para solicitar dados faltantes. Exigir os pressupostos de qualquer método usado para lidar com dados faltantes: por exemplo, que os dados são assumidos como ausentes aleatoriamente, ou que os valores faltantes foram assumidos como tendo um valor particular, como um resultado ruim. Execute análises de sensibilidade para avaliar a forma como os resultados são sensíveis a mudanças razoáveis ​​nos pressupostos que são feitos (ver Capítulo 9, Seção 9.7). Abordar o impacto potencial dos dados faltantes sobre os resultados da revisão na seção de Discussão. Bem-vindo ao Instituto de Pesquisa e Educação Digital Módulo de Aprendizado STATA Dados perdidos 1. Introdução Este módulo explorará os dados ausentes no STATA, com foco em dados faltantes numéricos. Ele irá descrever como indicar a falta de dados em seus arquivos de dados brutos, bem como como os dados faltantes são tratados nos comandos lógicos STATA e instruções de atribuição. Vamos ilustrar algumas das propriedades de dados ausentes em STATA usando dados de um estudo de tempo de reação com oito assuntos indicados pelo ID da variável. E os tempos de reação dos sujeitos foram medidos em três pontos de tempo (trial1 trial2 trial3). O arquivo de dados de entrada é mostrado abaixo. Você pode notar que alguns dos tempos de reação são codificados usando um único. Como é o caso para o assunto 2. A pessoa que mede o tempo para esse teste não mediu o tempo de resposta adequadamente, portanto, os dados para o segundo julgamento estão faltando. 2. Como o STATA lida com dados faltantes nos procedimentos STATA Como regra geral, os comandos STATA que executam cálculos de qualquer tipo manipulam dados ausentes, omitiendo os valores faltantes. No entanto, a forma como os valores faltantes são omitidos nem sempre é consistente em todos os comandos, então deixe-nos dar uma olhada em alguns exemplos. Primeiro, let39s resumem nossas variáveis ​​de tempo de reação e veja como o STATA lida com os valores que faltam. Como você vê na saída abaixo, resuma os meios calculados usando 4 observações para trial1 e trial2 e 6 observações para trial3. Em resumo, o comando de resumo executou os cálculos em todos os dados disponíveis. Um segundo exemplo, mostra como o comando tabulação ou tab1 lida com os dados que faltam. Como resumir, tab1 usa apenas dados disponíveis. Observe que as porcentagens são calculadas com base no número total de casos não faltantes. É possível que você possa querer que as porcentagens sejam calculadas a partir do número total de observações, e a porcentagem em falta para cada variável mostrada na tabela. Isso pode ser alcançado incluindo a opção em falta após a tabulação. Comando, Let39s veja como o comando correlate lida com dados faltantes. Esperamos que ele execute os cálculos com base nos dados disponíveis e omita os valores em falta. Aqui está um exemplo de comando. A saída é mostrada abaixo. Observe como os valores em falta foram excluídos. O Stata executará a exclusão da lista e exibirá apenas correlação para observações que tenham valores não faltantes em todas as variáveis ​​listadas. A Stata também permite a eliminação em pares. As correlações são exibidas para as observações que possuem valores não faltantes para cada par de variáveis. Isso pode ser feito usando o comando pwcorr. Usamos a opção obs para exibir o número de observação usado para cada par, como você pode ver, eles diferem dependendo da quantidade de falta. 3. Resumo de como os valores faltantes são tratados nos procedimentos STATA resumem. Para cada variável, o número de valores não faltantes é usado. Tabulação Por padrão, os valores em falta são excluídos e as porcentagens são baseadas no número de valores não faltantes. Se você usar a opção perdida no comando tab, as porcentagens são baseadas no número total de observações (não faltando e faltando) e a porcentagem de valores faltantes é relatada na tabela. Corrente Por padrão, as correlações são calculadas com base no número de pares com dados não faltantes (emparelhamento de dados faltantes). O comando pwcorr pode ser usado para solicitar que as correlações sejam computadas apenas para observações que tenham dados não faltantes para todas as variáveis ​​listadas após o comando pwcorr (eliminação de dados faltantes). Reg Se alguma das variáveis ​​listadas após o comando reg estiver faltando, as observações que faltam esse (s) valor (es) são excluídas da análise (ou seja, a eliminação de dados faltantes). Para outros procedimentos, consulte o manual STATA para obter informações sobre como os dados em falta são tratados. 4. Valores faltantes nas declarações de atribuição É importante entender como os valores faltantes são tratados nas instruções de atribuição. Considere o exemplo mostrado abaixo. O comando da lista a seguir ilustra como os valores faltantes são tratados nas instruções de atribuição. A variável soma1 é baseada nas variáveis ​​trial1 trial2 e trial3. Se alguma dessas variáveis ​​estivesse faltando, o valor para sum1 estava definido como ausente. Portanto, a soma 1 está faltando para as observações 2, 3 e 4, como é o caso da observação 7. Como regra geral, os cálculos envolvendo valores perdidos produzem valores faltantes. Por exemplo, 2 2 produz 4 2. rendimentos . 2 2 produz 1. 2 rendimentos. 2 3 produz 6 2. rendimentos . Sempre que você adicionar, subtrair, multiplicar, dividir, etc. valores que envolvem dados ausentes, o resultado está faltando. Em nosso experimento de tempo de reação, o tempo de reação total 1 está faltando para quatro dos sete casos. Poderíamos tentar totalizar os dados para os ensaios não faltantes usando a função rowtotal como mostrado no exemplo abaixo. Os resultados abaixo mostram que sum2 agora contém a soma dos testes não faltantes. Observe que a função rowtotal trata faltando como um valor zero. Ao somar várias variáveis, pode não ser razoável tratar falta como zero se falta uma observação em todas as variáveis ​​a serem somadas. A função rowtotal com a opção ausente retornará um valor faltante se uma observação estiver faltando em todas as variáveis. Outras declarações funcionam de forma semelhante. Por exemplo, observamos o que aconteceu quando tentamos criar uma variável média sem usar uma função (como no exemplo abaixo). Se alguma das variáveis ​​trial1, trial2 ou trial3 estiver faltando, o valor para avg1 está definido como ausente. Alternativamente, a função rowmean mede os dados para os ensaios que não faltam da mesma maneira que a função rowtotal. Nota: Houve um grande número de testes, digamos 50 tentativas, então seria irritante ter que digitar avgrowmean (trial1 trial2 trial3 trial4.). Aqui está um atalho que você pode usar neste tipo de situação: Finalmente, você pode usar as funções rowmiss e rownomiss para determinar o número de falta e o número de valores não faltantes, respectivamente, em uma lista de variáveis. Isso é ilustrado abaixo. Para nomiss variável. As observações 1, 5 e 6 tinham três valores válidos, as observações 2 e 3 tinham dois valores válidos, a observação 4 tinha apenas um valor válido e a observação 7 não tinha valores válidos. A variável miss mostra o contrário, fornece uma contagem do número de valores em falta. 5. Valores em falta em declarações lógicas É importante entender como os valores em falta são tratados em declarações lógicas. Por exemplo, diga que deseja criar uma variável 01 para trial1 que seja 1 se for 1.5 ou menos e 0 se for superior a 1.5. Mostramos isso abaixo (incorretamente, como você verá). Parece que algo deu errado com a nova variável new1 da nossa nova criação. As observações com valores faltantes para trial2 receberam um zero para newvar1. Vamos explorar por que isso aconteceu olhando a tabela de freqüência do teste2. Como você pode ver na saída, os valores ausentes estão listados após o valor mais alto 2.1 Isso ocorre porque STATA trata um valor ausente como o maior valor possível (por exemplo, infinito positivo) e esse valor é maior que 2.1, então os valores para Newvar1 torna-se 0. Agora que entendemos como o STATA trata os valores faltantes, excluiremos explicitamente os valores faltantes para garantir que sejam tratados adequadamente, conforme mostrado abaixo. Como você pode ver na saída STATA abaixo, a nova variável newvar2 possui valores faltantes para observações que também estão faltando para trial2. 6. Valores em falta em declarações lógicas Ao criar ou recodificar variáveis ​​que envolvem valores em falta, sempre preste atenção se a variável inclui valores faltantes. 7. Para obter mais informações, o conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico da Universidade da Califórnia.

No comments:

Post a Comment