Raul Castro Fernandez

PUBLICATIONS

Here you will find a list of our publications.

2026

The Pneuma Project: Reifying Information Needs as Relational Schemas to Automate Discovery, Guide Preparation, and Align Data with Intent. Muhammad Imam Luthfi Balaka,Raul Castro Fernandez CIDR 2026 (New)
Programmable Dataflows: Abstraction and Programming Model for Data Sharing. Siyuan Xia, Chris Zhu, Tapan Srivastava, Bridget Fahey, Raul Castro Fernandez PVLDB Journal 2026 (New)
The Structural Law of Data. Bridget Fahey, Raul Castro Fernandez The University of Chicago Law Review 2026 (New)

2025

What is the Value of Data?: A Theory and Systematization. Raul Castro Fernandez ACM/IMS Journal of Data Science 2025
Data Discovery is a Socio-Technical Problem: the Path from Document Identification and Retrieval to Data Ecology. Raul Castro Fernandez IEEE Data Engineering Bulletin 2025
Core Hours and Carbon Credits: Incentivizing Sustainability in HPC. Alok Kamatar, Maxime Gonthier, Valérie Hayot-Sasson, André Bauer, Marcin Copik, Torsten Hoefler, Raul Castro Fernandez, Kyle Chard, Ian T. Foster. SC 2025
Pneuma: Leveraging LLMs for Tabular Data Representation and Retrieval in an End-to-End System. Muhammad Imam Luthfi Balaka, David Alexander, Qiming Wang, Yue Gong, Adila Krisnadhi, Raul Castro Fernandez SIGMOD 2025
Data Ecology: Understanding and Designing Data Ecosystems. Raul Castro Fernandez SIGMOD Record (DBrainstorming column) 2025
Mass-Scale Analysis of In-the-Wild Conversations Reveals Complexity Bounds on LLM Jailbreaking. Aldan Creo, Raul Castro Fernandez, Manuel Cebrian SGAI-AI 2025
Not-So-Bitter Pill to Swallow: Slipstreaming Memory Safe Programming via Rust as part of a Database Systems Course. Mohammed Suhail Rehman, Aaron Elmore, Raul Castro Fernandez SIGMOD 2025

2024

Saving Money for Analytical Workloads in the Cloud. Tapan Srivastava, Raul Castro Fernandez VLDB 2024
Solo: Data Discovery Using Natural Language Questions Via A Self-Supervised Approach. Qiming Wang, Raul Castro Fernandez SIGMOD 2024
Nexus: Correlation Discovery over Collections of Spatio-Temporal Tabular Data. Yue Gong, Sainyam Galhotra, Raul Castro Fernandez SIGMOD 2024
Cackle: Analytical Workload Cost and Peformance Stability with Elastic Pools. Matthew Perron, Raul Castro Fernandez, David DeWitt, Michael Cafarella, Samuel Madden SIGMOD 2024
Responsible Sharing of Spatiotemporal Data Raul Castro Fernandez, Arnab Nandi SIGMOD 2024 (Tutorial)
Demonstration of Ver: View Discovery in the Wild Kevin Dharmawan, Chirag Kawediya, Yue Gong, Zaki Indra Yudhistira, Zhiru Zhu, Sainyam Galhotra, Adila Alfa Krisnadhi, Raul Castro Fernandez SIGMOD 2024 (Demo)
Demonstrating Nexus for Correlation Discovery over Collections of Spatio-Temporal Tabular Data Yue Gong, Raul Castro Fernandez SIGMOD 2024 (Demo)

2023

How Large Language Models Will Disrupt Data Management. Raul Castro Fernandez, Aaron Elmore, Michael Franklin, Sanjay Krishnan, Chenhao Tan. VLDB 2023
Data and AI Model Markets: Grand Opportunities for Data and Model Sharing, Discovery, and Integration. Jian Pei, Raul Castro Fernandez, Xiaohui Yu. VLDB 2023 (Tutorial)
Saibot: A Differentially Private Data Search Platform. Zezhou Huang, Jiaxiang Liu, Daniel Gbenga Alabi, Raul Castro Fernandez, Eugene Wu. VLDB 2023
Addressing Budget Allocation and Revenue Allocation in Data Market Environments Using an Adaptive Sampling Algorithm. Boxin Zhao, Boxiang Lyu, Raul Castro Fernandez, Mladen Kolar. ICML 2023
Data-Sharing Markets: Model, Protocol, and Algorithms to Incentivize the Formation of Data-Sharing Consortia. Raul Castro Fernandez. SIGMOD 2023
Metam: Goal-Oriented Data Discovery. Sainyam Galhotra, Yue Gong, Raul Castro Fernandez. ICDE 2023
Ver: View-Discovery in the Wild. Yue Gong, Zhiru Zhu, Sainyam Galhotra, Raul Castro Fernandez. ICDE 2023

2022

Data Station: Delegated, Trustworthy, and Auditable Computation to Enable Data-Sharing Consortia with a Data Escrow. Siyuan Xia, Zhiru Zhu, Chris Zhu, Jinjin Zhao, Kyle Chard, Aaron Elmore, lan Foster, Michael Franklin, Sanjay Krishnan, Raul Castro Fernandez. VLDB 2022
Revisiting Online Data Markets in 2022. A Seller and Buyer Perspective. Javen Kennedy, Pranav Subramaniam, Sainyam Galhotra, Raul Castro Fernandez. SIGMOD Record
Enabling Al Innovation via Data and Model Sharing: An Overview of the Nsf Convergence Accelerator Track D. Several authors Al Magazine
Protecting Data Markets from Strategic Buyers. Raul Castro Fernandez. SIGMOD 2022
Leva: Boosting Machine Learning Performance with Relational Embedding Data Augmentation. Alex Zhao, Raul Castro Fernandez. SIGMOD 2022

2020

Data Market Platforms: Trading Data Assets to Solve Data Problems. Raul Castro Fernandez, Pranav Subramaniam, Michael Franklin. VLDB 2020
ARDA: Automatic Relational Data Augmentation for Machine Learning. Nadiia Chepurko, Ryan Marcus, Emanuel Zgraggen, Raul Castro Fernandez, Tim Kraska, David Karger. VLDB 2020
Starling: A Scalable Query Engine on Cloud Function Services. Matt Perron, Raul Castro Fernandez, David DeWitt, Samuel Madden. SIGMOD 2020
A System for Studying Deep Network Training. Raul Castro Fernandez CIDR’20 (Abstract)

2019

Lazo A Cardinality-Based Method for Coupled Estimation of Jaccard Similarity and Containment. Raul Castro Fernandez, Jisoo Min, Demitri Devada, Samuel Madden. ICDE’19
Termite: A System for Tunneling Through Heterogeneous Data. Raul Castro Fernandez, Samuel Madden. AIDM@SIGMOD’19
Raha: A Configuration-Free Error Detection System. Mohammad Mahdavi, Ziawasch Abedjan, Raul Castro Fernandez, Sam Madden, Mourad Ouzzani, Michael Stonebraker, Nan Tang SIGMOD’19
Aurum: A Story About Research Taste. Raul Castro Fernandez. Making Databases Work. ACM Morgan & Claypool. 2019

2018

Aurum: A Data Discovery System. Raul Castro Fernandez, Ziawasch Abedjan, Famien Koko, Gina Yuan, Samuel Madden, Michael Stonebraker. ICDE’18
Seeping Semantics: Linking Datasets using Word Embeddings for Data Discovery. Raul Castro Fernandez, Essam Mansour, Abdulhakim Qahtan, Ahmed Elmagarmid, Ihab Ilyas, Samuel Madden, Mourad Ouzzani, Michael Stonebraker, Nan Tang. ICDE’18
Meta-Dataflows: Efficient Exploratory Dataflow Jobs. Raul Castro Fernandez, William Culhane, William Culhane, Pijika Watcharapichat, Matthias Weidlich, Victoria Lopez Morales, Peter Pietzuch. SIGMOD’18
Extracting Syntactical Patterns from Databases. Andrew Ilyas, Joana M. F. da Trindade, Raul Castro Fernandez, Samuel Madden. ICDE’18
FAHES: A Robust Disguised Missing Values Detector. Mourad Ouzzani, Nan Tang, Ahmed Elmagarmid, Raul Castro Fernandez, Abdulhakim A. Qahtan. KDD’18
Building Data Civilizer Pipelines with an Advanced Workflow Engine. Essam Mansour, Dong Deng, Raul Castro Fernandez, Abdulhakim Qahtan, Wenbo Tao, Ziawasch Abedjan, Ahmed Elmagarmid, Ihab Ilyas, Samuel Madden, Mourad Ouzzani, Michael Stonebraker, Nan Tang. (Demo) ICDE’18

2017

Quill: Efficient, Transferable, and Rich Analytics at Scale. Badrish Chandramouli, Raul Castro Fernandez, Jonathan Goldstein, Ahmed Eldawy, Abdul Quamar. VLDB’17
The Data Civilizer System. Dong Deng, Raul Castro Fernandez, Ziawasch Abedjan, Sibo Wang, Michael Stonebraker, Ahmed Elmagarmid, Ihab Ilyas, Samuel Madden, Mourad Ouzzani, Nan Tang. CIDR’17
A Demo of the Data Civilizer System. Raul Castro Fernandez, Dong Deng, Essam Mansour, Abdulhakim A Qahtan, Wenbo Tao, Ziawasch Abedjan, Ahmed Elmagarmid, Ihab Ilyas, Samuel Madden, Mourad Ouzzani, Michael Stonebraker, Nan Tang. (Demo) SIGMOD’17

2016

Ako: Decentralised Deep Learning with Partial Gradient Exchange. Pijika Watcharapichat, Victoria Lopez Morales, Raul Castro Fernandez, Peter Pietzuch. SOCC’16
Detecting Data Errors: Where are we and what needs to be done?. Ziawasch Abedjan, Xu Chu, Dong Deng, Raul Castro Fernandez, Ihab F. Ilyas, Mourad Ouzzani, Paolo Papotti, Michael Stonebraker, Nan Tang. VLDB’16
Towards Large-Scale Data Discovery. Raul Castro Fernandez, Ziawasch Abedjan, Samuel Madden, Michael Stonebraker. ExploreDB@SIGMOD’16
SABER: Window-Based Hybrid Stream Processing for Heterogeneous Architectures. Alexandros Koliousis, Matthias Weidlich, Raul Castro Fernandez, Paolo Costa, Alexander Wolf, Peter Pietzuch. SIGMOD’16
Java2SDG: Stateful Big Data Processing for the Masses. Raul Castro Fernandez, Panagiotis Garefalakis, Peter Pietzuch. (Demo) ICDE’16

2015

Liquid: Unifying Nearline and Offline Big Data Integration. Raul Castro Fernandez, Peter Pietzuch, Joel Koshy, Jay Kreps, Dong Lin, Neha Narkhede, Jun Rao, Chris Riccomini, Guozhang Wang. CIDR’15

2014

Making State Explicit for Imperative Big Data Processing. Raul Castro Fernandez, Matteo Migliavacca, Evangelia Kalyvianaki and Peter Pietzuch. USENIX ATC’14
Grand Challenge Scalable Stateful Stream Processing for Smart Grids. Raul Castro Fernandez, Matthias Weidlich, Peter Pietzuch and Avigdor Gal. DEBS’14

2013

Integrating Scale Out and Fault Tolerance in Stream Processing using Operator State Management. Raul Castro Fernandez, Matteo Migliavacca, Evangelia Kalyvianaki and Peter Pietzuch. SIGMOD’13 (SIGMOD’23 Test of Time Award)
Towards Low-Latency and In-Memory Large-Scale Data Processing. Raul Castro Fernandez and Peter Pietzuch. PhD Workshop@DEBS’13

Raul Castro Fernandez

About

NEWS

PUBLICATIONS

2026

2025

2024

2023

2022

2020

2019

2018

2017

2016

2015

2014

2013

STUDENTS

Postdocs and PhD Students

Master and Undergraduate Students

Alumni

TEACHING

SERVICE