Please help us test our new pre-print finding feature by giving the pre-print link a rating. A 5 star rating indicates the linked pre-print has the exact same content as the published article.
Please help us test our new pre-print finding feature by giving the pre-print link a rating. A 5 star rating indicates the linked pre-print has the exact same content as the published article.
Please help us test our new pre-print finding feature by giving the pre-print link a rating. A 5 star rating indicates the linked pre-print has the exact same content as the published article.
Abstract: Abstract Internet data pose a challenge to the traditional system of official statistics, which relies on more conventional sources such as surveys and registers, not readily adaptable to rapid changes. Expanding this system to include internet data is currently at an experimental stage, exploring these sources’ potentials and benefits. This paper describes a project conducted within the ESSnet Trusted Smart Statistics – Web Intelligence Network framework. It investigates the use of online apartment listings to analyze the rental market. We used web scraping to extract information from two online real estate portals for flats in the city of Berlin. Using this data, we developed a model to predict rental prices per square meter based on the accommodation’s features and location within the city. We detected offers which appear in both portals by means of statistical matching and removed duplicate offers. Missing values were treated by multiple imputation. The prediction model is a semi-parametric approach where the postal districts are used to describe the location effect. Comparisons with microcensus results and the local rent index reveal significant differences between the market of online flat offers and the stock of existing flat contracts. Interested readers will find the commented programming code in the internet supplement. PubDate: 2024-06-24 DOI: 10.1007/s11943-024-00340-6
Please help us test our new pre-print finding feature by giving the pre-print link a rating. A 5 star rating indicates the linked pre-print has the exact same content as the published article.
Abstract: Abstract For many attempts to inform evidence-based policymaking (or policy-makers in general) researchers have to rely on already available (instead of newly collected) data. These data have to be reliable, accessible (at best, without high hurdles, and with low or no fees to be paid) and findable. One way that helps to find suitable data that are easily accessible (and hopefully reliable) is to look at the contributions published in the Data Observer series described in this paper. PubDate: 2024-06-24 DOI: 10.1007/s11943-024-00341-5
Please help us test our new pre-print finding feature by giving the pre-print link a rating. A 5 star rating indicates the linked pre-print has the exact same content as the published article.
Please help us test our new pre-print finding feature by giving the pre-print link a rating. A 5 star rating indicates the linked pre-print has the exact same content as the published article.
Please help us test our new pre-print finding feature by giving the pre-print link a rating. A 5 star rating indicates the linked pre-print has the exact same content as the published article.
Abstract: Zusammenfassung Bürgerbeteiligungen finden sich in nahezu allen Bereichen des öffentlichen Lebens. Häufig sind Unzufriedenheit mit öffentlichen Entscheidungen und Politikverdrossenheit dafür ausschlaggebend, dass es zu einem Engagement der Bürger außerhalb des Berufslebens kommt. Über Auswirkungen und Struktur von Bürgerinitiativen ist wenig bekannt. Empirische Untersuchungen beschränken sich häufig auf Einzelfallanalysen. Eine breitere Datenbasis unter Verwendung von statistisch-ökonometrischen Verfahren ist notwendig, um zu verallgemeinerbaren Aussagen zu gelangen. Welcher Typ Mensch ist bei über das Private hinausgehenden Angelegenheiten aktiv und beteiligt sich an diesen' Inwiefern wird er davon in seiner Einstellung und seinen Verhaltensweisen beeinflusst. Bürgerräte sind ein vergleichsweise neu entwickeltes Instrument zur Bürgerbeteiligung, zu dem aus statistischer Sicht noch eine Reihe an Informationen fehlt. Zufallsgesteuerte Auswahlverfahren sollen dazu beitragen, dass sich Politikempfehlungen und Politikentscheidungen stärker am Bevölkerungswillen orientieren. Welche persönlichen Merkmale sind für Bürgerratsmitglieder typisch' Entspricht die Verteilung dieser Merkmale der in der Gesamtbevölkerung' Die empirische Untersuchung zeigt, dass übliche demographische Merkmale nur beschränkt die Teilnahme an Bürgerinitiativen erklären können und dass eine wechselseitige Beziehung zur Beteiligung an Bürgerinitiativen besteht. Von zusätzlicher Bedeutung sind Big 5 Charakteristika und Beurteilungen, was als gerecht empfunden wird. Lebenszufriedenheit und Vertrauen in Politiker offenbaren sich bei Personen mit und ohne Erfahrung im Bereich der Bürgerinitiativen unterschiedlich. Insgesamt ist die Bedeutung von Bürgerbeteiligung geringer einzuschätzen als die anderer altruistisch orientierter Aktivitäten. PubDate: 2024-03-08 DOI: 10.1007/s11943-024-00336-2
Please help us test our new pre-print finding feature by giving the pre-print link a rating. A 5 star rating indicates the linked pre-print has the exact same content as the published article.
Abstract: Abstract Following Russia’s invasion of Ukraine in early 2022, more than one million refugees have arrived in Germany. These Ukrainian refugees differ in many aspects from Germany’s past forced migration experiences and there exists an urgent need for sound data and information for politics, practitioners, and academics. In response, the IAB-BiB/FReDA-BAMF-SOEP study was established to provide high-quality longitudinal data following a register-based probability sample. We detail on an approach for sampling refugees in brief time, making use of two different registers—the German population register and the central register of foreigners—and discuss the quality of the final sample with respect to potential selectivity of participation in the panel. Overall, we demonstrate the benefits and feasibility of establishing register-based samples even in the context of a geopolitical crisis and the necessity of sound data within brief time horizons. We provide guidance that can be followed for similar events in the future. PubDate: 2024-03-04 DOI: 10.1007/s11943-024-00338-0
Please help us test our new pre-print finding feature by giving the pre-print link a rating. A 5 star rating indicates the linked pre-print has the exact same content as the published article.
Abstract: Zusammenfassung Die Grohmann-Vorlesung des Jahres 2023 beschäftigt sich mit dem Phänomen der „kleinen Jobs“ in Deutschland. Zunächst wird der institutionelle und historische Hintergrund von Minijobs erläutert und die Intensität ihrer Nutzung beschrieben. Anschließend fasst der Text die Inhalte von drei empirischen Studien zusammen. Diese setzen sich mit der Frage auseinander ob (i) Arbeitgeber reguläre Beschäftigung durch Minijobs ersetzen, (ii) Minijobs zur „motherhood penalty“ in Deutschland beitragen und (iii) ob Midijobs Übergänge aus Minijobs in reguläre sozialversicherungspflichtige Beschäftigung erleichtert haben. Die Vorlesung schließt mit einer Betrachtung möglicher Regelungsalternativen für „kleine Jobs“ in Deutschland. PubDate: 2024-03-04 DOI: 10.1007/s11943-024-00335-3
Please help us test our new pre-print finding feature by giving the pre-print link a rating. A 5 star rating indicates the linked pre-print has the exact same content as the published article.
Abstract: Abstract In this paper we discuss the use and potential advantages and disadvantages of machine learning driven models in rental guides. Rental guides are a formal legal instrument in Germany for surveying rents of flats in cities and municipalities, which are today based on regression models or simple contingency tables. We discuss if and how modern and timely methods of machine learning outperform existing and established routines. We make use of data from the Munich rental guide and mainly focus on the predictive power of these models. We discuss the “black-box” character making some of these models difficult to interpret and hence challenging for applications in the rental guide context. Still, it is of interest to see how “black-box” models perform with respect to prediction error. Moreover, we study adversarial effects, i.e. we investigate robustness in the sense how corrupted data influence the performance of the prediction models. With the data at hand we show that models with promising predictive performance suffer from being more vulnerable to corruptions than classic linear models including Ridge or Lasso regularization. PubDate: 2023-12-12 DOI: 10.1007/s11943-023-00333-x
Please help us test our new pre-print finding feature by giving the pre-print link a rating. A 5 star rating indicates the linked pre-print has the exact same content as the published article.
Please help us test our new pre-print finding feature by giving the pre-print link a rating. A 5 star rating indicates the linked pre-print has the exact same content as the published article.
Abstract: Abstract Machine learning (ML) is increasingly being used in official statistics with a range of different applications. The main focus of ML models is to accurately predict attributes of new, unlabeled cases whereas the focus of classical statistical models is to describe the relations between independent and dependent variables. There is already a lot of experience in the sound use of classical statistical models in official statistics, but for ML models this is still under development. Recent discussions concerning the quality aspects of using ML in official statistics have concentrated on its implications for existing quality frameworks. We are in favor of the use of ML in official statistics, but the main question remains as to what factors need to be considered when using ML models in official statistics. As a means of raising awareness regarding these factors, we pose ten propositions regarding the (sensible) use of ML in official statistics. PubDate: 2023-12-07 DOI: 10.1007/s11943-023-00330-0
Please help us test our new pre-print finding feature by giving the pre-print link a rating. A 5 star rating indicates the linked pre-print has the exact same content as the published article.
Abstract: Abstract Despite the fact that National Statistical Offices (NSOs) continue to embrace and adopt Machine Learning (ML) methods and tools in a variety of areas of their operations, including data collection, integration, and processing, it is still not clear how these complex and prediction-oriented approaches can be incorporated into the quality standards and frameworks within NSOs or if the frameworks themselves need to be modified. This article focuses on and builds upon two of the quality dimensions proposed in the Quality Framework for Statistical Algorithms (QF4SA): model explainability and accuracy (including uncertainty). The implications of the current methods for explainable ML and uncertainty quantification will be examined in further detail, as well as their possible uses in statistical production, such as continuous model monitoring in intermediate ML classifications and auto-coding phases. This strategy will ensure that human subject-matter experts, who are an essential component of every statistical program, are effectively integrated into the life cycle of ML projects. It will also guarantee to maintain the quality of ML models in production, adhere to the current quality frameworks within NSOs, and ultimately boost confidence and trust in these emerging technologies. PubDate: 2023-11-29 DOI: 10.1007/s11943-023-00331-z
Please help us test our new pre-print finding feature by giving the pre-print link a rating. A 5 star rating indicates the linked pre-print has the exact same content as the published article.
Abstract: Abstract The quality of Machine Learning (ML) applications is commonly assessed by quantifying how well an algorithm fits its respective training data. Yet, a perfect model that learns from and reproduces erroneous data will always be flawed in its real-world application. Hence, a comprehensive assessment of ML quality must include an additional data perspective, especially for models trained on human-annotated data. For the collection of human-annotated training data, best practices often do not exist and leave researchers to make arbitrary decisions when collecting annotations. Decisions about the selection of annotators or label options may affect training data quality and model performance. In this paper, I will outline and summarize previous research and approaches to the collection of annotated training data. I look at data annotation and its quality confounders from two perspectives: the set of annotators and the strategy of data collection. The paper will highlight the various implementations of text and image annotation collection and stress the importance of careful task construction. I conclude by illustrating the consequences for future research and applications of data annotation. The paper is intended give readers a starting point on annotated data quality research and stress the necessity of thoughtful consideration of the annotation collection process to researchers and practitioners. PubDate: 2023-11-27 DOI: 10.1007/s11943-023-00332-y
Please help us test our new pre-print finding feature by giving the pre-print link a rating. A 5 star rating indicates the linked pre-print has the exact same content as the published article.
Abstract: Zusammenfassung Die amtliche Statistik zeichnet sich durch ihren gesetzlich auferlegten Fokus auf die Qualität ihrer Veröffentlichungen aus. Dabei folgt sie den europäischen Qualitätsrahmenwerken, die auf nationaler Ebene in Form von Qualitätshandbüchern konkretisiert und operationalisiert werden, sich jedoch bis dato hinsichtlich Ausgestaltung und Interpretation an den Anforderungen der „klassischen“ Statistikproduktion orientieren. Der zunehmende Einsatz maschineller Lernverfahren (ML) in der amtlichen Statistik muss daher zur Erfüllung des Qualitätsanspruchs durch ein spezifisches, darauf zugeschnittenes Qualitätsrahmenwerk begleitet werden. Das vorliegende Papier leistet einen Beitrag zur Erarbeitung eines solchen Qualitätsrahmenwerks für den Einsatz von ML in der amtlichen Statistik, indem es (1) durch den Vergleich mit bestehenden Qualitätsgrundsätzen des Verhaltenskodex für Europäische Statistiken relevante Qualitätsdimensionen für ML identifiziert und (2) diese unter Berücksichtigung der besonderen methodischen Gegebenheiten von ML ausarbeitet. Dabei (2a) ergänzt es bestehende Vorschläge durch den Aspekt der Robustheit, (2b) stellt Bezug zu den Querschnittsthemen Machine Learning Operations (MLOps) und Fairness her und (2c) schlägt vor, wie die Qualitätssicherung der einzelnen Dimensionen in der Praxis der amtlichen Statistik ausgestaltet werden kann. Diese Arbeit liefert die konzeptionelle Grundlage, um Qualitätsindikatoren für ML-Verfahren formell in die Instrumente des Qualitätsmanagements im Statistischen Verbund zu überführen und damit langfristig den hohen Qualitätsstandard amtlicher Statistik auch bei Nutzung neuer Verfahren zu sichern. PubDate: 2023-11-17 DOI: 10.1007/s11943-023-00329-7
Please help us test our new pre-print finding feature by giving the pre-print link a rating. A 5 star rating indicates the linked pre-print has the exact same content as the published article.
Abstract: Abstract In this article, we present a framework to assess the challenges in the climate-related data landscape. From our perspective, we describe challenges and opportunities for innovation to close existing gaps in selected data quality dimensions for central banks and statistical offices. We further examine the role of networks in promoting innovation and international collaboration, highlighting practical experiences with a case study of the Sustainable Finance Data Hub at the Deutsche Bundesbank. Finally, we discuss how these lessons can provide avenues to enhance data quality in central banks and official statistics and outline directions for future research. PubDate: 2023-10-26 DOI: 10.1007/s11943-023-00326-w
Please help us test our new pre-print finding feature by giving the pre-print link a rating. A 5 star rating indicates the linked pre-print has the exact same content as the published article.
Please help us test our new pre-print finding feature by giving the pre-print link a rating. A 5 star rating indicates the linked pre-print has the exact same content as the published article.
Abstract: Zusammenfassung In einer Umfrage unter den neu immatrikulierten Master-Studierenden wurden unter anderem der soziale Hintergrund, die Studienfinanzierung und die Motivation für den gewählten Studiengang erfragt. Durch die Verknüpfung von administrativen Prüfungsdaten mit den neuen Umfragedaten wird die Analyse der Studienverläufe und des Studienerfolgs im Zusammenhang mit individuellen Merkmalen ermöglicht. Damit vermeiden wir die Schwachstellen üblicher studentischer Befragungen mit hohem Non-response und Erinnerungsfehlern. Dieser Ansatz wird hier zum Vergleich von fünf Masterstudiengängen am Fachbereich (FB) Wirtschaftswissenschaft der Freien Universität Berlin (FU Berlin) benutzt. Nach der ersten Befragung wurden die Studierenden über die ersten 6 Fachsemester hinsichtlich des Erwerbs von Leistungspunkten (LP), dem Abschluss ihres Masterstudiums sowie den dabei erzielten Noten begleitet. In den verknüpften Daten konnte ein Erfolgsbias der teilnahmebereiten Studierenden der Kohorte festgestellt werden, der aber durch eine geeignete Gewichtung über die Responserate gut beherrschbar ist. Wir vergleichen die Studiengänge in verschiedenen Phasen: Studieneingangsphase, Erreichen der Regelstudienzeit und Abschluss bis zum 6 Fachsemester. Weiterhin wird der Einfluss von Hintergrundmerkmalen auf die erreichte Note beim Studienabschluss untersucht. In der Studieneingangsphase ergeben sich deutliche Unterschiede zwischen den Studiengängen. Konditioniert man allerdings auf den Studienerfolg im ersten Semester, so verschwinden diese Unterschiede für die zweite Studienphase und den Abschluss des Studiums. Überraschend ist der geringe Einfluss der Bachelor-Note auf den Studienerfolg und die erzielte Master-Note. Die Ergebnisse zeigen die Möglichkeit auf, einen möglichen Studienabbruch schon relativ sicher anhand der erzielten LP in der Studieneingangsphase zu erkennen. PubDate: 2023-08-28 DOI: 10.1007/s11943-023-00325-x
Please help us test our new pre-print finding feature by giving the pre-print link a rating. A 5 star rating indicates the linked pre-print has the exact same content as the published article.
Abstract: Zusammenfassung Die Lohnlücke zwischen Personen, die innerhalb und außerhalb der Zeitarbeit beschäftigt sind, wird in Deutschland auf Grundlage verschiedener Datensätze berechnet, was teilweise zu sehr unterschiedlichen Ergebnissen führt. Der vorliegende Artikel untersucht die Lohnlücke in der Zeitarbeit daher anhand zweier Datensätze, den Integrierten Erwerbsbiografien (IEB) des Instituts für Arbeitsmarkt- und Berufsforschung der Bundesagentur für Arbeit und der Verdienststrukturerhebung (VSE) des Statistischen Bundesamtes. Hierzu wird die Lohnlücke auf Basis der beiden Mikrodatensätze mithilfe verschiedener ökonometrischer Verfahren analysiert. Die Ergebnisse der Studie zeigen, dass beim Vergleich von öffentlichen Statistiken auf eine Vergleichbarkeit der zugrundeliegenden Stichprobe geachtet werden sollte. Die Lohnlücke bei den Monatslöhnen ist bei Verwendung von IEB-Daten etwas größer als bei VSE-Daten, was auf Unterschiede in der Zusammensetzung der Stichprobe zurückzuführen ist. Die ökonometrische Analyse der Monatslöhne ergibt für beide Datensätze, dass die bereinigte Lohnlücke, d. h. die Lohnlücke nach Kontrolle für beobachtbare Charakteristika, deutlich geringer ausfällt als die unbereinigte Lohnlücke. Eine zusätzliche Analyse der Stundenlöhne auf Grundlage der VSE zeigt, dass die bereinigte Lohnlücke nahe null liegt. Dies deutet darauf hin, dass die Arbeitszeit eine wichtige Rolle für die Lohnlücke spielt. PubDate: 2023-08-25 DOI: 10.1007/s11943-023-00323-z
Please help us test our new pre-print finding feature by giving the pre-print link a rating. A 5 star rating indicates the linked pre-print has the exact same content as the published article.
Abstract: Zusammenfassung Das neue Mietspiegelgesetz erlaubt die Berücksichtigung von sogenannten außergesetzlichen Merkmalen wie Mietdauer und Vermietertyp bei der Erstellung von Mietspiegeln. Diese außergesetzlichen Merkmale dürfen in zukünftigen Mietspiegeln bei deren Erstellung und Modellwahl Einfluss finden, nicht aber im konkreten Mietspiegelmodell. Diese gesetzliche Vorgabe lässt viel Spielraum, der in diesem Beitrag aus statistischer Sicht beleuchtet wird. Anhand von konkreten Daten werden die Konsequenzen quantifiziert und aufgezeigt. PubDate: 2023-06-14 DOI: 10.1007/s11943-023-00321-1