Technology Radar
Apache Iceberg is an open table format for large-scale analytical datasets that defines how data files, metadata and schemas are organized on storage systems such as S3. Having evolved significantly in recent years, it has become a foundational building block for technology-agnostic lakehouse architectures.
Iceberg is now supported by all major data platform providers — including AWS (Athena, EMR, Redshift), Snowflake, Databricks and Google BigQuery — making it a strong option for avoiding vendor lock-in. What distinguishes Iceberg from other open table formats is its openness across features and governance, unlike alternatives whose capabilities are limited or controlled by a single vendor.
From a reliability perspective, Iceberg's snapshot-based design provides serializable isolation, safe concurrent writes through optimistic concurrency and version history with rollback. These capabilities deliver strong correctness guarantees while avoiding performance bottlenecks.
While Apache Spark remains the most common engine used with Iceberg, it’s also well supported by Trino, Flink, DuckDB and others, making it suitable for a wide range of use cases, from enterprise data platforms to lightweight local analytics. Across many of our teams, Iceberg has earned strong trust as a stable, open data format; we recommend it as a default choice for organizations building modern data platforms.
Apache Iceberg Es un formato de tabla abierta para conjuntos de datos analíticos muy grandes. Iceberg admite operaciones de datos analíticos modernos, como la inserción, actualización y eliminación a nivel de registro, time-travel queries, transacciones ACID, partición oculta y evolución completa del esquema. Soporta múltiples formatos de almacenamiento de archivos subyacentes como Apache Parquet, Apache ORC y Apache Avro. Muchos motores de procesamiento de datos soportan Apache Iceberg, incluyendo motores SQL como Dremio y Trino, así como motores de streaming (estructurado) como Apache Spark y Apache Flink.
Apache Iceberg está en la misma categoría que Delta Lake y Apache Hudi. Todos ellos soportan más o menos características similares, pero cada uno difiere en las implementaciones subyacentes y en las listas de características detalladas. Iceberg es un formato independiente y no es nativo de ningún motor de procesamiento específico, por lo que es soportado por un número creciente de plataformas, incluyendo AWS Athena y Snowflake. Por la misma razón, Apache Iceberg, a diferencia de los formatos nativos como Delta Lake, puede no beneficiarse de las optimizaciones cuando se utiliza con Spark.