Skip navigation
Vista previa
Ver
1,29 MB
Compartir:
Registro completo de metadatos
Campo DC Valor
dc.contributor.authorForteza, Nicolás
dc.contributor.authorGarcía-Uribe, Sandra
dc.date.accessioned2023-10-19T10:20:23Z
dc.date.available2023-10-19T10:20:23Z
dc.date.issued2023-10-24
dc.identifier.issn1579-8666 (en línea)
dc.identifier.issn0213-2710 (en papel)
dc.identifier.urihttps://repositorio.bde.es/handle/123456789/34613
dc.description.abstractLos errores en la recopilación de datos de las encuestas financieras de los hogares podrían propagarse y afectar a las estimaciones poblacionales, sobre todo cuando existe un sobremuestreo de algunos grupos de población. Hasta ahora se han realizado revisiones manuales de cada entrevista para identificar y corregir los posibles errores y omisiones, como es el caso de los activos, ingresos o deudas omitidos o recogidos con información errónea. En este trabajo se ofrece un enfoque de aprendizaje automático para clasificar aquellos datos de encuestas que presentan errores y omisiones importantes durante la fase de revisión. Utilizando datos de la Encuesta Financiera de las Familias, se muestra el mejor algoritmo de clasificación supervisado con el fin de priorizar tales casos. Asimismo, se demuestra que con un modelo Gradient Boosting Trees (árboles de potenciación del gradiente) se obtienen mejores resultados que con otros clasificadores. Finalmente, se proporciona un marco que tiene en cuenta la disyuntiva entre precisión y exhaustividad (recall) en la entidad encuestadora para escoger el umbral óptimo de clasificación.
dc.description.abstractErrors in the collection of household finance survey data may proliferate in population estimates, especially when there is oversampling of some population groups. Manual case-by-case revision has been commonly applied in order to identify and correct potential errors and omissions such as omitted or misreported assets, income and debts. We derive a machine learning approach for the purpose of classifying survey data affected by severe errors and omissions in the revision phase. Using data from the Spanish Survey of Household Finances we provide the best-performing supervised classification algorithm for the task of prioritizing cases with substantial errors and omissions. Our results show that a Gradient Boosting Trees classifier outperforms several competing classifiers. We also provide a framework that takes into account the trade-off between precision and recall in the survey agency in order to select the optimal classification threshold.
dc.format.extent31 p.
dc.language.isoen
dc.publisherBanco de España
dc.relation.ispartofDocumentos de Trabajo / Banco de España, 2330
dc.rightsReconocimiento-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0)
dc.rightsIn Copyright - Non Commercial Use Permitted
dc.rights.urihttps://creativecommons.org/licenses/by-nc-sa/4.0/deed.es_ES
dc.rights.urihttp://rightsstatements.org/vocab/InC-NC/1.0/
dc.subjectAprendizaje automático
dc.subjectModelos de predicción
dc.subjectEdición selectiva
dc.subjectDatos de encuestas
dc.subjectMachine learning
dc.subjectPredictive models
dc.subjectSelective editing
dc.subjectSurvey data
dc.titleA score function to prioritize editing in household survey data: a machine learning approach
dc.typeDocumento de trabajo
dc.identifier.bdebib000474954
dc.identifier.bdepubDTRA-202330-eng
dc.subject.bdeProgramas informáticos de Econometría
dc.subject.bdeBig data e inteligencia artificial
dc.subject.bdeMétodos Econométricos y Estadísticos
dc.publisher.bdeMadrid : Banco de España, 2023
dc.subject.jelC81
dc.subject.jelC83
dc.subject.jelC88
dc.identifier.doihttps://doi.org/10.53479/34613
Aparece en las colecciones:


loading