En este artículo te presentamos un video en el que vas a encontrar todo lo necesario para entender los primeros pasos en Databricks y poder empezar a trabajar con esta tecnología gratis.
Databricks para el análisis de datos
Databricks se convirtió en una herramienta fundamental para el trabajo en Data & AI porque reduce de sobremanera el stack de herramientas que cualquier persona que trabaja con datos utiliza. Elimina la complejidad asociada al uso de varias tecnologías porque centraliza el acceso, la manipulación y la gestión de los datos en el mismo lugar, no importa el perfil de quien acceda (ingenieros, científicos, analistas, usuarios de negocio, etc.)
Además, introduce el concepto de lakehouse que vino a resolver los problemas clásicos del data warehouse y del data lake. Las arquitecturas lakehouse combinan lo mejor de dos mundos, por un lado la estrategia de almacenamiento costo efectiva y la flexibilidad del data lake con la performance y la disponibilidad de datos del data warehouse.
Primeros Pasos
En este video explicamos cómo evolucionaron las arquitecturas de datos modernas data warehouse, data lake y lakehouse. También hablamos de qué novedades y beneficios introduce Databricks a las personas que trabajan con datos y repasamos algunos de los features más destacados: Delta Live Tables, Delta Sharing, Unity Catalog y Databricks SQL.
Este video le va a servir a quienes estén empezando a trabajar con Databricks o necesiten entender cuáles son los aspectos básicos de esta herramienta.
En el video van a encontrar:
- Componentes de una arquitectura de datos.
- Qué buscamos en una arquitectura de datos.
- Cómo construir una arquitectura de datos.
- Qué es un data warehouse.
- Problemas del data warehouse.
- Qué es un Data Lake.
- Qué son y cómo funcionan los sistemas distribuidos (Spark).
- Qué es Databricks.
- Cómo darte de alta en la versión gratuita (Databricks Community).
- Databricks para los diferentes roles de datos.
- Cómo estructurar un data lake en Databricks (arquitectura Medallion).
- Problemas del data warehouse y del data lake.
- Data Lakehouse: qué es y qué viene a resolver.
- Qué novedades introduce Databricks en el data lakehouse.
- Desafíos de Delta Lake.
- Delta Lake: qué es y cómo se compone.
- Demo Delta Lake.
- Delta Live Tables: qué es y cómo funciona.
- Delta Sharing: qué es y cómo funciona.
- Unity Catalog: qué es y cómo funciona.
- Databricks SQL: qué es y cómo funciona.
¿Cuáles son las principales ventajas de Databricks?
1) Simplicidad
Databricks funciona como un sistema distribuido que puede configurarse de forma muy simple. Con apenas un clic, podremos contar con la capacidad de cómputo de un cluster de Spark.
2) Potencia y elasticidad
La sencillez de Databricks, no va en contra de su potencia. Detrás de esta plataforma, implementamos un sistema con la capacidad y la potencia de Spark que, además, está montado 100% en nube. Entonces, no por ser simple, pierde capacidad de cómputo o potencia.
3) Para todos los perfiles de datos
Al ser fácil de usar, al tener mucha capacidad de cómputo y al ser elástica, Databricks es una plataforma que sirve para todo lo que queramos crear con los datos y para todo tipo de perfiles.
4) Basada en una arquitectura libre
Su arquitectura se basa en componentes open source. Esto no implica que sea gratis, significa que el vendor lock-in es bajo.
Supongamos que tenemos que construir un data lake con teras y teras de datos que representa la realidad de mi negocio, el hecho que esté basado en componentes libres significa que, si el día de mañana queremos ir de Databricks a otra tecnología, podremos hacerlo y el costo no será tan elevado.
¿Qué es una arquitectura de datos?
Una arquitectura de datos es una combinación de tecnologías que permite resolver las necesidades de información de una organización. Por ejemplo: cuánto se vendió, cuántos clientes se ganaron o están en riesgo de perderse, cuál es el nivel de stock de productos, etc. Provee todos aquellos datos que el negocio necesita para poder tomar decisiones data-driven.
La arquitectura de datos es la estructura tecnológica que está detrás de una solución de datos, ya sean tableros, reportes, sistemas de alertado, modelos de inteligencia artificial, etc. Lo más importante es que pueda garantizar una visión integral del negocio.
Para profundizar más en este concepto, te invitamos a que leas este artículo sobre ¿Qué es una arquitectura de datos moderna?
Conclusión
En poco tiempo, Databricks está dejando de ser un aspiracional y está pasando a ser la tecnología elegida para darle vida a los proyectos de Data & AI. Aprender a usarla es un paso clave para los diferentes perfiles que trabajan con datos, por eso dejamos este video con todo lo necesario para empezar.