Monday 20 November 2017

Missing data imputation binário opções


16 1 2 Princípios gerais para lidar com dados faltantes. Há uma grande literatura de métodos estatísticos para lidar com dados ausentes Aqui nós revemos brevemente alguns conceitos-chave e fazemos algumas recomendações gerais para os autores da revisão Cochrane É importante pensar por que os dados podem estar faltando Os estatísticos usam frequentemente os termos que faltam aleatoriamente e não faltam aleatòria para representar scenarios diferentes. Os dados são ditos faltar aleatòria se o fato que faltam é unrelated aos valores reais dos dados faltantes Por exemplo, se alguma qualidade-de - os questionários de vida foram perdidos no sistema postal, o que provavelmente não estaria relacionado com a qualidade de vida dos participantes do ensaio que preencheram os formulários. Em algumas circunstâncias, os estatísticos distinguem entre os dados que faltam ao acaso e os dados faltam completamente ao acaso, O contexto de uma revisão sistemática a distinção é improvável que seja importante Dados que estão faltando aleatoriamente pode não ser importante Análises baseadas Sobre os dados disponíveis tendem a ser imparcial, embora com base em um tamanho de amostra menor do que o conjunto de dados original. Diz-se que os dados não estão faltando aleatoriamente se o fato de que eles estão faltando está relacionado com os dados faltantes reais Por exemplo, em Um julgamento de depressão, os participantes que tiveram uma recaída de depressão podem ser menos propensos a comparecer à entrevista final de acompanhamento e mais provável que tenham dados de resultado ausentes. Esses dados não são ignoráveis ​​no sentido de que uma análise dos dados disponíveis sozinha Tipicamente tendenciosa O viés de publicação e o viés de reportagem seletivo levam, por definição, a dados que não estão faltando aleatoriamente, e o atrito e exclusões de indivíduos dentro de estudos freqüentemente fazem também. As principais opções para lidar com dados faltantes são analisar apenas os dados disponíveis Ignorando os dados em falta.2 imputando os dados em falta com valores de substituição e tratando-os como se fossem observados, por exemplo, a última observação reportada, imputando um resultado assumido como Imputando a média, imputando com base nos valores preditos de uma análise de regressão.3, imputando os dados ausentes e explicando o fato de que estes foram imputados com incerteza, por exemplo, imputação múltipla, métodos de imputação simples como o ponto 2 com ajuste para O erro padrão.4 usando modelos estatísticos para permitir a falta de dados, fazendo suposições sobre as suas relações com os dados disponíveis. Option 1 pode ser apropriado quando os dados podem ser assumidos como ausentes ao acaso As opções 2 a 4 são tentativas de endereçar dados não faltando Aleatoriamente A opção 2 é prática na maioria das circunstâncias e muito comumente usada em revisões sistemáticas No entanto, não reconhece a incerteza nos valores e resultados imputados, tipicamente em intervalos de confiança que são muito estreitos As opções 3 e 4 exigem o envolvimento de um estatístico experiente . Quatro recomendações gerais para lidar com dados faltantes nas revisões Cochrane são as seguintes. Sempre que possível, Os investigadores originais para solicitar dados em falta. Faça explícito os pressupostos de quaisquer métodos utilizados para lidar com dados em falta, por exemplo, que os dados são assumidos faltando ao acaso, ou que valores em falta foram assumidos como tendo um valor específico, como um mau resultado. Realizar análises de sensibilidade para avaliar quão sensíveis são os resultados de mudanças razoáveis ​​nos pressupostos que são feitas ver Capítulo 9, Seção 9 7.Address o impacto potencial de falta de dados sobre as conclusões da revisão na seção de discussão. Imputação múltipla em Stata Imputing. Esta é a quarta parte da série Imputação Múltipla em Stata Para uma lista de tópicos cobertos por esta série, veja a Introdução. Esta seção falará com você através dos detalhes do processo de imputação Certifique-se de ter lido pelo menos a seção anterior, Criando Imputação Modelos para que você tenha uma noção do que os problemas podem afetar a validade de seus resultados. Exemplos de dados. Para ilustrar o processo, vamos usar um conjunto de dados fabricados Ao contrário daqueles em E exemplos de seção, este conjunto de dados é projetado para ter alguma semelhança com o mundo real data. female binary. race categórico, três valores. urban binary. edu ordenado categórico, quatro values. exp contínuo. wage contínuo. Missingness Cada valor de todas as variáveis Exceto que a fêmea tem 10 chances de estar faltando completamente ao acaso, mas é claro que no mundo real não saberemos que é MCAR antes do tempo. Assim, vamos verificar se é MCAR ou MAR MNAR não pode ser verificado olhando para o observado Dados usando o procedimento delineado em Decidir a Impute. unab numvars unab missvars salário urbano-misstable sum, gen miss. foreach var de local missvars local covars lista numvars - var display newline 3 logit ausência de var em covars logit miss var covars foreach nvar de Covars locais mostram newline 3 ttest de nvar por missingness de var ttest nvar, por miss var. Veja o arquivo de log para results. Our objetivo é regressar salários sobre sexo, raça, nível de educação e experiência Para ver as respostas certas, aberto th E do arquivo que cria o conjunto de dados e examinar o comando gen que define o código de salário para o processo de imputação pode ser encontrado no seguinte processo de arquivo. O processo de imputação cria um monte de saída Nós vamos colocar destaques nesta página, no entanto, um completo Arquivo de log, incluindo os gráficos associados podem ser encontrados here. Each seção deste artigo terá links para a seção relevante do registro Clique de volta no seu navegador para retornar a esta página. O primeiro passo no uso de comandos mi é a mi definir seus dados Isto é um pouco semelhante ao svyset tsset ou xtset O comando mi set diz Stata como ele deve armazenar as imputações adicionais que você vai criar Sugerimos usar o formato largo, como é ligeiramente mais rápido Por outro lado, mlong usa um pouco menos de memória. Stata usar a estrutura de dados de largura, type. To ter Stata usar o mlong estrutura de dados longa marginal, type. The largura vs longa terminologia é emprestado de remodelar e as estruturas são semelhantes No entanto, eles não são equivalentes e você woul D nunca use remodelar para alterar a estrutura de dados usada por mi Em vez disso, digite mi convert wide ou ml convert mlong add, desmarque se os dados não foram salvos desde a última mudança. A maior parte do tempo você don t precisa se preocupar sobre como o Imputações são armazenados os comandos mi descobrir automaticamente como aplicar tudo o que você faz para cada imputação Mas se você precisa manipular os dados de uma maneira mi não pode fazer por você, então você precisará aprender sobre os detalhes da estrutura que você Usando Você também precisa ser muito, muito cuidadoso Se você está interessado em tais coisas, incluindo os formatos raramente utilizados flong e flongsep executar este arquivo e ler os comentários que contém ao examinar o navegador de dados para ver o que os dados parecem em cada Form. Registering Variables. O mi comandos reconhecem três tipos de variáveis. Imputed variáveis ​​são variáveis ​​que mi é imputar ou imputou. Regular variáveis ​​são variáveis ​​que mi não é para imputar, quer por escolha ou porque eles não estão faltando nenhum valor As variáveis ​​passivas são variáveis ​​que são completamente determinadas por outras variáveis. Por exemplo, o salário em log é determinado por salário ou um indicador para obesidade pode ser determinado por uma função de peso e altura. Os termos de interação também são variáveis ​​passivas, embora se você usar Stata As variáveis ​​passivas são muitas vezes problemáticas os exemplos sobre as transformações não-linearidade e as interações mostram como usá-las inadequadamente pode levar a estimativas tendenciosas. Se uma variável passiva é determinada por variáveis ​​regulares, então ele pode Ser tratada como uma variável regular desde nenhuma imputação é necessária As variáveis ​​passivas só têm de ser tratadas como tal, se eles dependem de variáveis ​​imputadas. Registrando uma variável diz Stata que tipo de variável é Imputed variáveis ​​sempre devem ser registradas. mi registro imputado varlist. Onde varlist deve ser substituído pela lista real de variáveis ​​a serem imputadas. Variáveis ​​regulares muitas vezes não precisam ser registradas, mas É uma boa idéia. mi registro variáveis ​​regular varlist. Passive deve ser register. mi registrar variável passiva. No entanto, as variáveis ​​passivas são mais frequentemente criados após imputing fazê-lo com mi passiva e eles serão registrados como passiva automaticamente. Nos nossos dados de exemplo, Todas as variáveis, exceto feminino, precisam ser imputadas O registro de registro adequado is. mi registra o salário-raça imputado. Observe que você não pode usar como sua varlist mesmo se você tiver que imputar todas as suas variáveis, porque isso incluiria as variáveis ​​de sistema adicionadas pelo mi set para manter o controle da estrutura de imputação. Registrando a fêmea como regular é opcional, mas uma boa idéia. mi Registrar regular female. Checking o modelo de Imputação. Com base nos tipos das variáveis, os métodos de imputação óbvia são. race categórico, três valores mlogit. urban binário logit. edu ordenado categórico, quatro valores ologit. exp contínua regress. wage contínua regressar. Feminino não precisa ser imputado, mas deve ser incluído nos modelos de imputação, tanto porque está no modelo de análise e porque é susceptível de ser relevante. Antes de proceder a imputar vamos verificar cada um dos modelos de imputação Sempre executar cada um dos seus Modelos de imputação individualmente, fora do contexto encadeado mi imputar, para ver se eles convergem e na medida em que é possível verificar que eles são especificados corretamente. Código para executar cada um desses modelos is. mlogit r Salário salário exp salário salário exp salário salário exp salário regress salário salário exp. Note que quando as variáveis ​​categóricas ordenadas ou não aparecem como covariados i expande-los em conjuntos de variáveis ​​indicador. Como veremos mais adiante, a saída do mi imputar Chained inclui os comandos para os modelos individuais que executa Assim, um atalho útil, especialmente se você tem um monte de variáveis ​​a imputar, é configurar o comando mi impute chained com a opção dryrun para impedi-lo de fazer qualquer imputing real, executar Lo e, em seguida, copiar os comandos da saída para o seu arquivo para testing. Convergence Problems. The primeira coisa a notar é que todos esses modelos funcionam com êxito Modelos complexos como mlogit pode falhar para convergir se você tiver um grande número de variáveis ​​categóricas, Porque isso geralmente leva a pequenos tamanhos de célula Para identificar a causa do problema, remova a maioria das variáveis, verifique se o modelo funciona com o que resta, e depois adicione as variáveis ​​de volta uma de cada vez ou em pequenas Grupos até que pare de trabalhar Com alguma experimentação você deve ser capaz de identificar a variável de problema ou combinação de variáveis ​​Nesse ponto você terá que decidir se você pode combinar categorias ou soltar variáveis ​​ou fazer outras mudanças para criar um modelo viável. Prefeito Predição. Preferência perfeita é outro problema a observar O processo de imputação não pode simplesmente deixar cair as observações perfeitamente previstas a maneira logit pode Você poderia soltá-los antes de imputar, mas isso parece derrotar o propósito de imputação múltipla A alternativa é adicionar o aumento ou apenas aug Opção para os métodos afetados Isso diz mi impute acorrentado para usar a abordagem de regressão aumentada, que adiciona observações falsas com pesos muito baixos, de tal forma que eles têm um efeito insignificante sobre os resultados, mas evitar a previsão perfeita Para mais detalhes consulte a seção A questão de Predição perfeita durante a imputação de dados categóricos na documentação de Stata MI. Verificando a falta de especificação. Ould também tentar avaliar se os modelos são especificados corretamente Uma discussão completa de como determinar se um modelo de regressão é especificado corretamente ou não está muito além do escopo deste artigo, mas usar as ferramentas que você achar apropriado Aqui estão alguns exemplos. Residual vs Parcelas de valor ajustado. Para variáveis ​​contínuas, as parcelas de valores residuais vs ajustadas facilmente feitas com rvfplot podem ser úteis. Vários exemplos usam-nas para detectar problemas. Considere o gráfico para experience. regress exp rvfplot. Note como um número de pontos são agrupados ao longo de um Linha na parte inferior esquerda e não há pontos abaixo dela. Isto reflete a restrição de que a experiência não pode ser menor do que zero, o que significa que os valores ajustados devem ser sempre maiores ou iguais aos resíduos ou que os resíduos devem ser maiores Igual ou igual ao negativo dos valores ajustados Se o gráfico tivesse a mesma escala em ambos os eixos, a linha de restrição seria uma linha de 45 graus Se todos os pontos estivessem abaixo de um si Milar linha em vez de acima dela, isso iria dizer-lhe que havia um limite superior sobre a variável em vez de um limite inferior A intercepção y da linha de restrição diz-lhe o limite em ambos os casos Você também pode ter um limite inferior e um Limite superior, colocando todos os pontos em uma faixa entre eles. O modelo óbvio, regressar é inadequado para a experiência, porque não vai aplicar esta restrição É também inadequado para os salários para a mesma razão Alternativas incluem truncreg, ll 0 e pmm vamos usar Pmm. Adding Interactions. In neste exemplo, parece plausível que as relações entre as variáveis ​​podem variar entre raça, gênero e grupos urbanos rurais Assim, uma maneira de verificar a falta de especificação é adicionar termos de interação para os modelos e ver se eles acabam por Ser importante Por exemplo, vamos comparar o óbvio modelo. regress exp salário. com um que inclui interações. regress exp. We ll executar comparações semelhantes para os modelos das outras variáveis ​​Isso cria uma grande quantidade de As interações entre as variáveis ​​femininas e outras variáveis ​​são significativas nos modelos de sal edu e urbano. Existem algumas interações significativas entre raça ou urbano e outras variáveis, mas não quase tantas e tenha em mente que Com este muitos coeficientes que d esperam alguns falsos positivos usando um nível de significância de 05 Nós ll assim imputar os homens e as mulheres separadamente Esta é uma opção especialmente boa para este conjunto de dados, porque a mulher nunca está ausente Se fosse, teríamos que deixar cair aqueles As observações que estão faltando fêmea porque não puderam ser colocadas em um grupo ou no outro. No comando da imputação isto significa adicionar a opção por fêmea Ao testar modelos, significa começar os comandos com o prefixo fêmea e remover a fêmea das listas de Covariates Os modelos de imputação melhorados são, portanto,.bysort feminino reg exp salário por feminino logit urbano exp salário por feminino mlogit corrida exp salário por feminino reg salário exp por feminino ologit edu ex P salary. pmm em si não pode ser executado fora do contexto de imputação, mas uma vez que s baseado em regressão você pode usar a regressão regular para testá-lo. Estes modelos devem ser testados novamente, mas vamos omitir esse processo. A sintaxe básica para mi imputar encadeado Is. mi impute encadeado método1 varlist1 method2 varlist2 regvars. Each método especifica o método a ser usado para imputar a seguinte varlist As possibilidades para o método são regressar pmm truncreg intreg logit ologit mlogit poisson e nbreg regvars é uma lista de variáveis ​​regulares para ser usado como Covariates nos modelos de imputação, mas não imputado pode não haver any. The opções básicas são. add N rseed R savetrace tracefile replace. N é o número de imputações a serem adicionados ao conjunto de dados R é a semente a ser usado para o aleatório Se você não definir isso, você vai ter imputações ligeiramente diferentes cada vez que o comando é executado O tracefile é um conjunto de dados em que mi impute encadeados irá armazenar informações sobre o processo de imputação Nós ll us E este conjunto de dados para verificar a convergência. Opções que são relevantes para um determinado método ir com o método, dentro dos parênteses, mas seguindo uma vírgula eg mlogit, aug Opções que são relevantes para o processo de imputação como um todo como por fêmea ir no final , Após a vírgula. Para nosso exemplo, o comando seria. im imputar encadeado logit urbano mlogit raça ologit edu pmm salário exp, adicione 5 rseed 4409 por female. Note que isso não inclui uma opção de savetrace Como desta escrita, por e Savetrace não pode ser usado ao mesmo tempo, presumivelmente porque exigiria um arquivo de rastreamento para cada grupo Stata está ciente deste problema e esperamos que isso será alterado em breve Para fins deste artigo, vamos remover a opção por quando ele vem Tempo para ilustrar o uso do arquivo de rastreamento Se este problema surge em sua pesquisa, fale conosco sobre o trabalho em torno. Escolhendo o número de Imputations. There há algum desacordo entre as autoridades sobre quantas imputações são suficientes Alguns dizem 3-10 em quase Todas as circunstâncias, a documentação Stata sugere pelo menos 20, enquanto White, Royston e Wood argumentam que o número de imputações deve ser aproximadamente igual à porcentagem de casos com valores em falta. No entanto, não temos conhecimento de qualquer argumento de que aumentar o número de Imputações sempre causa problemas apenas que o benefício marginal de outra imputação assintoticamente se aproxima zero. Aumentar o número de imputações em sua análise não leva essencialmente nenhum trabalho em sua parte Apenas mude o número na opção de adicionar algo maior Por outro lado, pode ser Um monte de trabalho para o computador imputação múltipla introduziu muitos pesquisadores para o mundo de trabalhos que levam horas ou dias para executar Você geralmente pode assumir que a quantidade de tempo necessário será proporcional ao número de imputações usado, por exemplo, se um arquivo do faz Duas horas para correr com cinco imputações, provavelmente levará cerca de quatro horas para correr com dez imputações Então aqui está nossa sugestão. Comece com cinco im Putations a parte inferior do que s amplamente considerado legítimo. Trabalho em seu projeto de pesquisa até que você esteja razoavelmente confiante de que você tem a análise em sua forma final Certifique-se de fazer tudo com fazer arquivos para que você possa executá-lo novamente a will. Note quanto tempo o O processo leva, da imputação para a análise final. Considere quanto tempo você tem disponível e decidir quantas imputações você pode ter recursos para correr, usando a regra de ouro que o tempo necessário é proporcional ao número de imputações Se possível, faça o número de imputações Aproximadamente igual à porcentagem de casos com dados faltantes uma estimativa de ponta alta do que é exigido Permita tempo para recuperar se as coisas derem errado, como eles geralmente do. Increase o número de imputações em seu arquivo do e começar it. Do algo mais enquanto O arquivo do é executado, como escrever o seu papel Adicionando imputações shouldn t alterar seus resultados de forma significativa e no evento improvável que eles fazem, considere-se a sorte de ter descoberto que antes de publicar. Speedin G up the Imputation Process. Multiple imputação introduziu muitos pesquisadores no mundo dos trabalhos que levam horas, dias ou mesmo semanas para executar Geralmente não vale a pena gastar seu tempo para fazer Stata código executar mais rápido, mas a imputação múltipla pode ser uma exceção Use o computador mais rápido disponível Para os membros do SSCC que significa aprender a executar trabalhos no Linstat, o cluster de computação Linux do SSCC Linux não é tão difícil como você pode pensar Usar Linstat tem instruções. A imputação múltipla envolve mais leitura e gravação no disco do que Mais Stata comandos Às vezes isso inclui a gravação de arquivos temporários no diretório de trabalho atual Use o mais rápido espaço em disco disponível para você, tanto para o seu conjunto de dados e para o diretório de trabalho Em geral, o espaço em disco local será mais rápido do que o disco rígido e no Linstat ramdisk Um diretório que é realmente armazenado na RAM será mais rápido do que o espaço em disco local Por outro lado, você não gostaria de armazenar permanentemente conjuntos de dados em qualquer lugar, mas netwo Rk espaço em disco Então considere ter o seu arquivo do fazer algo como o seguinte. Windows Winstat ou seu próprio PC. This aplica-se quando você está usando dados imputados também Se o seu conjunto de dados é grande o suficiente que trabalhar com ele após a imputação é lento, o acima Em cada iteração, mi impute encadeado primeiro estima o modelo de imputação, usando os dados observados e os dados imputados da iteração anterior. Em seguida, extrai novos valores imputados das distribuições resultantes Nota Que, como resultado, cada iteração tem alguma autocorrelação com a imputação anterior. A primeira iteração deve ser um caso especial nele, mi impute encadeado primeiro estima o modelo de imputação para a variável com menos valores em falta baseados apenas nos dados observados e desenha Valores imputados para essa variável. Em seguida, estima-se o modelo para a variável com os valores mais próximos perdidos, usando tanto os valores observados como os valores F a primeira variável, e procede de forma similar para o resto das variáveis. Assim, a primeira iteração é muitas vezes atípica e, como as iterações são correlacionadas, pode fazer iterações subsequentes também atípicas. Para evitar isso, mi impute acorrentado por padrão passa por dez iterações para Cada um dos conjuntos de dados imputados que você solicita, salvando apenas os resultados da décima iteração. As primeiras nove iterações são chamadas de período de burn-in Normalmente, isso é bastante tempo para que os efeitos da primeira iteração se tornem insignificantes e para que o processo converge para um Estado estacionário No entanto, você deve verificar a convergência e aumentar o número de iterações, se necessário para garantir que ele use a opção burnin. Para fazer isso, examine o arquivo de rastreio salvo por mi impute encadeado Ele contém a média eo desvio padrão de cada variável imputada em Cada iteração Estes irão variar aleatoriamente, mas eles não devem mostrar qualquer tendência Uma maneira fácil de verificar é com tsline, mas exige a remodelação dos dados first. Our preferido Modelo de imputação usa por isso ele não pode salvar um arquivo de rastreamento Assim nós vamos remover por agora Nós também vamos aumentar a opção de burnin para 100 por isso é mais fácil ver o que parece um rastro estável Vamos então usar remodelar e tsline para verificar Convergência. preservar mi imputar encadeado logit urbano mlogit corrida ologit edu pmm exp salário feminino, adicionar 5 rseed 88 savetrace extrace, substituir burnin 100 use extrace, substituir remodelar largo mean sd, iter jm tsset iter tsline expmean, title Mean of Imputed Values ​​of Nota de experiência Cada linha é para uma legenda de imputação fora de exportação de gráfico substituir tsline expsd, título Desvio padrão de valores de experiência de experiência nota Cada linha é para uma legenda de imputação off gráfico exportação substituir restaurar. Os gráficos resultantes não mostram quaisquer problemas óbvios. Se você Ver sinais de que o processo pode não ter convergido após o padrão de dez iterações, aumentar o número de iterações realizadas antes de salvar os valores imputados com a opção burnin Se convergência nunca é achi Eved isso indica um problema com o modelo de imputação. Verificando os valores imputados. Depois de imputar, você deve verificar para ver se os dados imputados se assemelham aos dados observados Infelizmente não há nenhum teste formal para determinar o que é suficientemente próximo Claro que se os dados são MAR Mas não o MCAR, os dados imputados devem ser sistematicamente diferentes dos dados observados. Ironicamente, quanto menos valores perdidos você tiver que imputar, mais variação você verá entre os dados imputados e os dados observados e entre imputações. Para variáveis ​​binárias e categóricas, Comparar as tabelas de frequência Para as variáveis ​​contínuas, comparar médias e desvios padrão é um bom ponto de partida, mas você deve olhar para a forma geral da distribuição, bem Para isso sugerimos gráficos de densidade do kernel ou talvez histogramas Olhe cada imputação separadamente, em vez de juntar todas Os valores imputados para que você possa ver se qualquer um deles deu errado. O prefixo mi xeq dizer Stata para aplicar o comando subseqüente para cada im Putation individualmente. Também se aplica aos dados originais, a imputação zeroth. Assim, xeq tab race. will dar-lhe seis tabelas de freqüência um para os dados originais e um para cada uma das cinco imputations. However, queremos comparar os dados observados Para apenas os dados imputados, não todo o conjunto de dados Isso requer a adição de uma condição if aos comandos tab para as imputações, mas não os dados observados Adicionar um número ou numlist para ter mi xeq agir em imputations. mi particular xeq 0 tab race mi Xeq 1 5 tab race se missrace. This cria tabelas de freqüência para os valores observados de raça e, em seguida, os valores imputados em todas as cinco imputations. If você tem um número significativo de variáveis ​​para examinar você pode facilmente loop sobre them. foreach var varlist urbana Race edu mi xeq 0 guia var mi xeq 1 5 tab var se perder var. Para os resultados ver o arquivo de log. Running sumário estatísticas sobre variáveis ​​contínuas segue o mesmo processo, mas criando gráficos de densidade do kernel adiciona uma complicação que você precisa para salvar o Gráficos ou dar-se uma chance de olhar para eles mi xeq pode realizar vários comandos para cada imputação basta colocá-los todos em uma linha com um ponto e vírgula no final de cada Isso não vai funcionar se você mudou o fim geral de comando Delimitador para um ponto-e-vírgula O comando sleep diz Stata para pausar por um período especificado, medido em milisegundos. mi xeq 0 kdensity salário sono 1000 mi xeq 1 5 kdensity salário se perder var dormir 1000.Again, isso pode ser automatizado. Varlist salário exp mi xeq 0 soma var mi xeq 1 5 soma var se perder var mi xeq 0 kdensidade var sleep 1000 mi xeq 1 5 kdensidade var se perca var sleep 1000.Saving os gráficos acaba por ser um pouco mais complicado, porque você precisa Para dar o gráfico de cada imputação um nome de arquivo diferente Infelizmente você não pode acessar o número de imputação dentro mi xeq No entanto, você pode fazer um forvalues ​​loop sobre números de imputação, então tem mi xeq agir em cada um deles. forval i 1 5 mi xeq i Kdensity exp se missexp graph export replace. Integ Classificando isto com a versão anterior dá. para cada var de varlist salário exp mi xeq 0 soma var mi xeq 1 5 soma var se errar var mi xeq 0 kdensity var gráfico exportação substituir forval i 1 5 mi xeq i kdensidade var se perder var exportação de gráfico Para os resultados, ver o arquivo de log. É problemático que em todas as imputações a média dos valores de salário imputados seja maior que a média dos valores observados de salário ea média dos valores de exp imputados seja menor que a média Dos valores observados de exp Não encontramos evidências de que os dados são MAR mas não MCAR, por isso esperamos que as médias dos dados imputados sejam agrupadas em torno dos meios dos dados observados Não há nenhum teste formal para nos dizer definitivamente se Este é um problema ou não No entanto, deve levantar suspeitas, e se os resultados finais com estes dados imputados são diferentes dos resultados da análise completa de casos, levanta a questão de saber se a diferença é devido a problemas com o modelo de imputação. Revisado 8 23 2017.A Novo método de imputação para dados binários incompletos. Mina Munevver Subasi a. Ersoy Subasi b. Martin Anthony c. Peter L Hammer 1.a Departamento de Ciências Matemáticas, Instituto de Tecnologia da Flórida, 150 W University Blvd Melbourne, FL 32901, USA. b RUTCOR , Centro de Pesquisa de Operações de Rutgers, 640 Bartholomew Road, Piscataway, NJ 08854, USA. c Departamento de Matemática, London School of Economics and Political Sciences, Houghton Street, Londres WC2A 2AE, UK. Received 17 de outubro de 2009, Em problemas de análise de dados onde os dados são representados por vetores de números reais, é comum que alguns dos pontos de dados tenham valores faltantes, o que significa que um ou mais dos As entradas do vetor que descreve o ponto de dados não são observadas Neste artigo, propomos uma nova abordagem para a imputação de valores binários faltantes A técnica que introduzimos emprega uma medida de similaridade introduzida por Anthony e Hammer 20 06 1 Comparamos experimentalmente o desempenho de nossa técnica com aqueles baseados na medida de distância de Hamming usual e em imputação múltipla. Medida de similaridade de bolhas.1 Introdução. Nos problemas práticos de aprendizagem mecânica ou de análise de dados nos quais os dados a serem analisados ​​consistem em vetores de real Números é muitas vezes o caso que alguns dos pontos de dados terão valores em falta, o que significa que uma ou mais das entradas do vetor que descreve o ponto de dados é desconhecido É natural para tentar preencher ou imputar esses desaparecidos Isto pode ser necessário, por exemplo, para que os dados possam ser usados ​​para aprender usando técnicas de aprendizagem estatística ou de máquina. Este é um problema clássico de aprendizagem estatística e de máquina e muitas técnicas têm sido empregadas Dado que em aplicações da vida real os dados em falta são um incómodo em vez do foco principal, um método de imputação com boas propriedades pode ser preferível a um que é complicado Para implementar e mais eficiente, mas problem-specific. Some abordagens para lidar com dados faltando simplesmente ignorar ou apagar pontos que são incompletas Classical abordagens deste tipo são list-wise supressão LD e dupla deleção PD Devido à sua simplicidade, eles são amplamente utilizados ver , Por exemplo 15 e tendem a ser o padrão para a maioria dos pacotes estatísticos. No entanto, a aplicação dessas técnicas pode levar a uma grande perda de observações, o que pode resultar em conjuntos de dados que são muito pequenos se a fração de valores faltantes é alta e Particularmente se o conjunto de dados original é em si pequeno. Uma das decisões mais desafiadoras enfrentadas pelos pesquisadores é escolher o método mais apropriado para lidar com dados perdidos durante a análise. Little e Rubin 13 sugerem que métodos de imputação ingênuos ou sem princípios podem criar mais problemas do que resolverem. As técnicas mais comuns de imputação de dados são a imputação média também referida como imputação média incondicional, imputação de regressão RI também referida Como imputação média condicional, imputação de hot-deck IDH e imputação múltipla MI Observamos que a imputação média e abordagens semelhantes não são apropriadas no sentido de Rubin 16 e, portanto, não são recomendadas Na maioria das situações, técnicas simples para lidar com dados faltantes como Os métodos de análise de casos completos LD e PD, MI global eo método de indicador faltante produzem resultados tendenciosos como documentado em 5 12 16 18 e 21 Uma técnica mais sofisticada MI dá resultados muito melhores 5 12 16 18 e 21.MI 16 é uma estatística Técnica em que cada valor em falta é substituído por vários valores kk, produzindo kk conjuntos de dados completos para análise As diferenças entre estes conjuntos de dados refletem a incerteza dos valores faltantes Cada conjunto de dados imputado é analisado por procedimentos padrão de dados completos, Ignoram a distinção entre valores reais e imputados. Os resultados kk são então combinados de tal forma que a variabilidade devida à imputação pode ser incorporada. Os resultados dessas análises combinadas não só geram estimativas não tendenciosas para os parâmetros, mas incorporam adequadamente a incerteza envolvida devido aos dados faltantes, ou seja, produzem estimativas válidas das variâncias dessas estimativas de parâmetro Rubin 16 deu um tratamento abrangente do IM e abordou usos potenciais do technique primarily for large public-use data files from sample surveys and censuses The technique is available in standard statistical packages such as SAS, Stata and S-Plus It has become increasingly attractive for researchers in the biomedical, behavioral, and social sciences where missing data is a common problem These methods are documented in the book by Schafer 18 on incomplete multivariate data. In fully parametric models, maximum-likelihood estimates can often be calculated directly from the incomplete data by specialized numerical methods, such as the Expectation Maximization EM algorithm 4 and 14 The EM algorithm is an iterative procedure in which it uses ot her variables to impute a value Expectation , then checks whether that is the value most likely Maximization If not, it re-imputes a more likely value This goes on until it reaches the most likely value Those procedures may be somewhat more efficient than MI because they involve no simulation EM Imputation is available in SAS, Stata, R, and SPSS Missing Values Analysis module. Imputation techniques have become easier to perform with the advent of several software packages However, imputation of missing binary data is still an important practical problem Ibrahim 7 showed that, under the assumption that the missing data are missing at random, the E step of the EM algorithm for any generalized linear model can be expressed as a weighted complete-data log-likelihood when the unobserved covariates are assumed to come from a discrete distribution with finite range Ibrahim s method of weights 7 8 9 11 10 and 6 can be used as a principled approach for imputation of binary data. In this paper, we propose a new approach to the imputation of missing binary values The technique we introduce employs a similarity measure introduced in 1 The Boolean similarity measure has already proven to be of some application in classification problems 19 Here, we use it to help indicate whether a missing value should be 0 or 1, and we compare experimentally the performance of our technique with ones based on the usual Hamming distance measure and MI technique using SAS 17.The framework used here requires data to be represented by binary vectors However, in many applications, the raw data that we work with in a particular situation might be more naturally encoded as a real-valued vector In such cases, the data may be transformed into binary data through a process known as binarization see 2 for example The transformed data-set may then be simplified or cleaned in a variety of ways, by the removal of repeated points, for instance, and the deletion of attributes or coordinates found to be statistic ally insignificant in determining the classification. Section 2 provides details of the Boolean similarity measure that is at the core of our technique and describes the imputation method that derives from this measure Section 3 describes the experiments we performed in order to test this method, and the results are reported in Section 4.IMPUTEITEMS Stata module to impute missing data of binary items. When requesting a correction, please mention this item s handle RePEc boc bocode s456807 See general information about how to correct material in RePEc. For technical questions regarding this item, or to correct its authors, title, abstract, bibliographic or download information, contact Christopher F Baum. If you have authored this item and are not yet registered with RePEc, we encourage you to do it here This allows to link your profile to this item It also allows you to accept potential citations to this item that we are uncertain about. If references are entirely missing, you can add them using this form. If the full references list an item that is present in RePEc, but the system did not link to it, you can help with this form. If you know of missing items citing this one, you can help us creating those links by adding the relevant references in the same way as above, for each refering item If you are a registered author of this item, you may also want to check the citations tab in your profile, as there may be some citations waiting for confirmation. Please note that corrections may take a couple of weeks to filter through the various RePEc services. More services. Follow series, journals, authors more. New papers by email. Subscribe to new additions to RePEc. Author registration. Public profiles for Economics researchers. Various rankings of research in Economics related fields. Who was a student of whom, using RePEc. RePEc Biblio. Curated articles papers on various economics topics. Upload your paper to be listed on RePEc and IDEAS. Blog aggregator for economics research. Cases of plagiarism in Economics. Job Market Papers. RePEc working paper series dedicated to the job market. Fantasy League. Pretend you are at the helm of an economics department. Services from the StL Fed. Data, research, apps more from the St Louis Fed.22 Jun 2017, 14 34.Dear Statalist experts, I am currently handling a questionnaire-derived dataset with mostly categorical nominal and ordinal variables with some missing data MAR in them, where people haven t completed the questionnaire Due to the nature of the purpose of my final model predictive diagnostics , it is important that I have as complete a dataset as possible and hence, I am hoping to fill in the data points using multiple imputation via Stata I tried using MI chained but STATA keeps telling me that I have missing variables within my imputation variables but I thought this problem could be alleviated if I use chained equation i e the iterations should run in a chain loop simultaneously The syntax I ve used looked like the following. mi impute chained mlogit, include Q2 Q69e Q77 noimputed augment Q10, add 3 rseed 23549.but I keep getting these error messages. either r 498 missing imputed values produced This may occur when imputation variables are used as independent variables or when independent variables contain missing values. convergence not achieved convergence not achieved mlogit failed to converge on observed data. As a result, the regression model used to predict the missing value cannot be created I really welcome any input at all in the matter Any insights that could possibly resolve the matter would be greatly appreciated Many thanks. Why are you using noimputed The help says the option is rarely used I would suggest starting nice and simple and then add complexity if you think you need it augment is a little esoteric too if you need it it is because you have perfect predictions, and if so that may be adding to your woes. Also, how much missing data do you have There may be limits to the miracles MI can do if there are huge amounts of MD in several variables. It may just be because I do not have enough experience with it, but I tend to be leery of MI in general It seems like the benefits are often trivial, or that the justification for using it may be in this case I might want to do some checks to see ho w similar the people who didn t complete are to the people who did complete on the parts that both completed.27 Jun 2017, 06 44.Dear Mr Williams and Mr Schechter. Many thanks for replying to my conundrum. The reason I am assuming the missingness as MAR is because we have carried out interviews on a random sample to find out reasons for missing data, to which evidence varied as to why questions were omitted for many it was a matter of accidental omission or there were no specific reason per say Where I do see your argument, I don t think my data is necessarily MNAR either. I know I should be wary of MI but at present, I ve been tasked to proceed with it Unfortunately, the participant-completed questionnaire had been a large one consisting of 100 variables where few missing datapoints had occurred for most of the participants Should I start the regression process now, through listwise deletion I would lose most of my data Hence, I would like as much as possible to impute and retain data The number of missing data varied from 0 9 to 10 across the variables Regarding the rigor of MI as a method, following successful MI, I have proposed a few checks to assess the validity of the imputed dataset in order to ensure that it is logical. I am really open to other options but I need to ensure I ve exhausted all avenues of MI first as been assigned As advised, I have since attempted the imputation model without the additional functions and missingness in the imputation variables is still a problem I think after long discussion with the team, for the time frame given we might need to forgo MI and proceed with the regression model as planned Any suggestions that could help solve the MI problem or any other statistical classification model that could handle missingness in categorical data with dichotomous dependent variables in healthcare research would still be greatly appreciated Meanwhile, I ll keep searching the web for a general idea of the literature Thank you again.27 Jun 2017, 07 21.Based on your description I wouldn t expect you to be having so much trouble, so, without having the data, it is hard to advise you To further simplify things, maybe you could try dichotomizing your mlogit variable and see if it will work then Or, if there are some categories with very sparse counts e g only 4 people gave a response of 7 then see if there are logical ways to combine and reduce the number of categories These are things you might want to do regardless of whether you are using mi or not.09 Jul 2017, 20 07.Hi Joey, The error r 498 missing imputed values produced This may occur when imputation variables are used as independent variables or when independent variables contain missing values suggests that one of the independent variables you are using also has missing values itself You can use the option force to go ahead with the imputation and for the independent variable with missing data only complete cases will be used I hope this helps.

No comments:

Post a Comment