A score function to prioritize editing in household survey data: a machine learning approach

Forteza, Nicolás; García-Uribe, Sandra

Ver

1,29 MB

Registro completo de metadatos

Campo DC	Valor
dc.contributor.author	Forteza, Nicolás
dc.contributor.author	García-Uribe, Sandra
dc.date.accessioned	2023-10-19T10:20:23Z
dc.date.available	2023-10-19T10:20:23Z
dc.date.issued	2023-10-24
dc.identifier.issn	1579-8666 (en línea)
dc.identifier.issn	0213-2710 (en papel)
dc.identifier.uri	https://repositorio.bde.es/handle/123456789/34613
dc.description.abstract	Los errores en la recopilación de datos de las encuestas financieras de los hogares podrían propagarse y afectar a las estimaciones poblacionales, sobre todo cuando existe un sobremuestreo de algunos grupos de población. Hasta ahora se han realizado revisiones manuales de cada entrevista para identificar y corregir los posibles errores y omisiones, como es el caso de los activos, ingresos o deudas omitidos o recogidos con información errónea. En este trabajo se ofrece un enfoque de aprendizaje automático para clasificar aquellos datos de encuestas que presentan errores y omisiones importantes durante la fase de revisión. Utilizando datos de la Encuesta Financiera de las Familias, se muestra el mejor algoritmo de clasificación supervisado con el fin de priorizar tales casos. Asimismo, se demuestra que con un modelo Gradient Boosting Trees (árboles de potenciación del gradiente) se obtienen mejores resultados que con otros clasificadores. Finalmente, se proporciona un marco que tiene en cuenta la disyuntiva entre precisión y exhaustividad (recall) en la entidad encuestadora para escoger el umbral óptimo de clasificación.
dc.description.abstract	Errors in the collection of household finance survey data may proliferate in population estimates, especially when there is oversampling of some population groups. Manual case-by-case revision has been commonly applied in order to identify and correct potential errors and omissions such as omitted or misreported assets, income and debts. We derive a machine learning approach for the purpose of classifying survey data affected by severe errors and omissions in the revision phase. Using data from the Spanish Survey of Household Finances we provide the best-performing supervised classification algorithm for the task of prioritizing cases with substantial errors and omissions. Our results show that a Gradient Boosting Trees classifier outperforms several competing classifiers. We also provide a framework that takes into account the trade-off between precision and recall in the survey agency in order to select the optimal classification threshold.
dc.format.extent	31 p.
dc.language.iso	en
dc.publisher	Banco de España
dc.relation.ispartof	Documentos de Trabajo / Banco de España, 2330
dc.rights	Reconocimiento-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0)
dc.rights	In Copyright - Non Commercial Use Permitted
dc.rights.uri	https://creativecommons.org/licenses/by-nc-sa/4.0/deed.es_ES
dc.rights.uri	http://rightsstatements.org/vocab/InC-NC/1.0/
dc.subject	Aprendizaje automático
dc.subject	Modelos de predicción
dc.subject	Edición selectiva
dc.subject	Datos de encuestas
dc.subject	Machine learning
dc.subject	Predictive models
dc.subject	Selective editing
dc.subject	Survey data
dc.title	A score function to prioritize editing in household survey data: a machine learning approach
dc.type	Documento de trabajo
dc.identifier.bdebib	000474954
dc.identifier.bdepub	DTRA-202330-eng
dc.subject.bde	Programas informáticos de Econometría
dc.subject.bde	Big data e inteligencia artificial
dc.subject.bde	Métodos Econométricos y Estadísticos
dc.publisher.bde	Madrid : Banco de España, 2023
dc.subject.jel	C81
dc.subject.jel	C83
dc.subject.jel	C88
dc.identifier.doi	https://doi.org/10.53479/34613

Aparece en las colecciones:

Documentos de Trabajo 2023

Modal title