Skip navigation
Thumbnail
View
1,25 MB
Share:
Full metadata record
DC FieldValue
dc.contributor.otherMorales Fernández, Alejandro
dc.coverage.spatialEspaña
dc.date.accessioned2024-04-04T10:36:29Z
dc.date.available2024-04-04T10:36:29Z
dc.date.issued2024-04-04
dc.identifier.issnISSN 2530-7495 (edición electrónica)
dc.identifier.urihttps://repositorio.bde.es/handle/123456789/36332
dc.description.abstractEl propósito de este documento es presentar el trabajo sobre la sectorización y clasificación de Holdings usando Machine Learning (en español, Aprendizaje Automático) que se ha desarrollado en la Central de Balances en el Banco de España durante el último año. Este trabajo también ha sido presentado en el World Statistics Congress (WSC) en Ottawa en julio de 2023, organizado por el International Statistics Institute (ISI). Este documento es parte de una serie de charlas sobre Bancos Centrales organizadas por el Comité Irving Fisher (IFC) en el mismo congreso. El trabajo presentado se puede dividir en dos partes diferenciadas: en primer lugar, obtener un procedimiento automatizado que ayude a distinguir compañías como Holding o Sede Central en el contexto de Actividad Económica. En otras palabras, el propósito es detectar entidades con posibles CNAE 6420 o 7010 verificando si aquellas que declaran tales actividades muestran indicadores (ratios económicos y financieros) de serlo, y viceversa, entre aquellas que no declaran esas actividades, sus datos (principalmente sus estados financieros anuales) indican el potencial de serlo. En segundo lugar, el objetivo es realizar una sectorización institucional (es decir, la clasificación necesaria para los sistemas de Cuentas Nacionales, diferente a la mera actividad económica) de compañías Holding/Sede Central, es decir, clasificarlas en sectores Financiero/No Financiero. Para lograr esto, se utiliza como punto de partida el modelo y la información generada en la primera parte del proyecto. Para cumplir con ambas tareas, se utiliza Inteligencia Artificial, en particular modelos de aprendizaje automático supervisado para clasificación. Un modelo supervisado requiere un conjunto previo de compañías etiquetadas, lo que significa que necesita compañías categorizadas de antemano y con total certeza como Holding/Sede/otras o Financiera/No Financiera. En las bases de datos disponibles en la Central de Balances (de ahora en adelante, CB) del Departamento de Estadística, hay una amplia gama de compañías previamente procesadas por el personal de negocio, y esto ha resultado en tener información etiquetada, un factor esencial para construir el modelo. Además, se han realizado otras tareas imprescindibles para la creación del modelo final de aprendizaje automático. Entre ellas, está la integración de varias fuentes de datos del CB y la posterior adaptación a la estructura necesaria para la creación del modelo. Esto incluye la selección, eliminación y transformación de variables utilizando métodos estadísticos, así como la selección y/o eliminación de variables por razones de negocio. Finalmente, después de construir y evaluar el modelo, se propone un control de calidad. Los CNAE propuestos a veces difieren de los CNAE originalmente registrados. En tales casos, se proponen dos acciones independientes como resultado de la aplicación del modelo: la asignación automática de más de 8.500 compañías donde el resultado del modelo se alinea con las reglas de negocio, y la revisión sugerida, manualmente, de aproximadamente 5.300 compañías. En cuanto al modelo de sectorización institucional, proporciona un conjunto más pequeño de entidades para revisar su sector y, por lo tanto, ahorra esfuerzo humano. En el Apéndice: Detalles Técnicos del Modelo, se describen los pasos seguidos para llegar al modelo propuesto, junto con otros detalles técnicos.
dc.description.abstractThis statistical note presents the work carried out last year by the Banco de España’s Central Balance Sheet Data Office (CBSO) on the sectorisation and classification of holding companies using machine learning. This work has also been presented, in July 2023, at the World Statistics Congress (WSC) in Ottawa, organised by the International Statistics Institute (ISI), and this note is part of a series of talks on central banks organised by the Irving Fisher Committee (IFC) at the same congress. The work presented can be divided into two parts: first, obtaining an automated procedure to help distinguish companies that, given their economic activity, are either holding companies or head offices. In other words, the aim of this work is to detect companies whose activities may come under codes 6420 or 7010 of the CNAE (Spanish National Classification of Economic Activities, equivalent to NACE, the statistical classification of economic activities in the European Community), by checking whether their data (mainly economic and financial ratios from their annual financial statements) suggest that they are or may be holding companies or head offices (whether or not they report such activities). The second part of the work is the classification of holding companies and head offices into the financial or non-financial sectors (as required by the National Accounts), using the model and information generated by the first part of the project as a starting point. Artificial intelligence – in particular supervised machine learning classification models – is used to perform both of these tasks. A supervised model requires a prior set of labelled companies, that is to say it needs companies that have already been categorised with complete certainty as holding companies, head offices or other companies in the financial or non-financial sectors. A wide range of companies in the databases of the CBSO Division of the Statistics Department have been categorised manually, so that labelled information – an essential factor for building the model – is available. Other essential tasks for the creation of the final machine learning model have also been performed, including the integration of various CBSO data sources and their subsequent adaptation to the structure necessary to create the model. Inter alia, variables have been selected, eliminated and transformed using statistical methods, and variables have been selected and/or eliminated for business reasons. Finally, after the model has been constructed and evaluated, a quality control procedure is proposed. The proposed CNAE codes sometimes differ from those originally recorded. In such cases, two independent actions are proposed as a result of the model’s application: the automatic classification of over 8,500 companies, where the model’s result is in line with the business rules, and the manual review of approximately 5,300 other companies. As for the institutional sectorisation model, it provides a smaller set of entities for which the sector needs to be reviewed and therefore saves human effort. The steps taken to build the proposed model, along with other technical details, are described in the annex on the technical details of the model.
dc.format.extent38 p.
dc.language.isoeng
dc.publisherBanco de España
dc.relation.ispartofNotas Estadísticas / Banco de España, 18
dc.rightsReconocimiento-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0)
dc.rightsIn Copyright - Non Commercial Use Permitted
dc.rights.urihttps://creativecommons.org/licenses/by-nc-sa/4.0/deed.es_ES
dc.rights.urihttp://rightsstatements.org/vocab/InC-NC/1.0/
dc.subjectMachine Learning
dc.subjectBusiness Classification
dc.subjectSupervised Models
dc.subjectHoldings
dc.subjectInstitutional Sectorisation
dc.subjectHead Offices
dc.subjectData Integration
dc.subjectVariable Selection
dc.subjectQuality Control
dc.subjectAprendizaje automático
dc.subjectClasificación empresarial
dc.subjectModelos supervisados
dc.subjectSectorización institucional
dc.subjectSedes centrales
dc.subjectIntegración de datos
dc.subjectSelección de variables
dc.subjectControl de calidad
dc.subjectInteligencia artificial
dc.titleBusiness Sector Classification And Beyond Using Machine Learning
dc.typeLibro
dc.identifier.bdebib000475419
dc.identifier.bdepubNOES-18-000eng
dc.publisher.placeMadrid
dc.subject.bdeInstituciones financieras no bancarias
dc.publisher.bdeMadrid : Banco de España, 2024-04-04
Appears in Collections:


loading