-
Notifications
You must be signed in to change notification settings - Fork 2
Open
Description
Pensei em ago como:
diagnostica_RA( base, DV_vars , DV_tipos, ids_unicas ){
...
}
onde:
- base: data frame contendo a base de dados. Internamente a função deve manipular os dados como uma data.table
- DV_vars: vetor com os nomes das variáveis que tem dígito verificador
- DV_tipos: vetor com os tipos das variáveis que tem dígito veirficador (precisa ter o mesmo comprimento de DV_vars)
- IDs_unicas: lista as variáveis que deveriam, em tese, identificar unicamente as linhas da base (depois explico a lógica disso, que vai encaixar com outras funções que eu já desenvolvi a respeito)
A função deveria retornar um documento de PDF contendo um relatório de:
- Parte 1:
Frequencia de missings (NAs) ou strings vazias ("") em todas as variáveis da base.
Acho que isso poderia ser mostrado como um gráfico de barras, onde cada barra corr - Parte 2:
Para as variáveis em DV_vars
Frequencia de missings, zeros, strings vazias, DV valido e DV inválido - Parte 3:
Unicidade das supostas IDs_unicas
Algo que desenvolvi usando componentes conexos (teoria dos grafos, pacote igraph) formados pelas IDs_unicas, descrevendo o número de linhas em cada componente conexo
Reactions are currently unavailable
Metadata
Metadata
Assignees
Labels
No labels