Logo de Datalytics
Logo de Datalytics
Logo de Datalytics
Logo de Datalytics

¿Cómo usar Databricks?

Tabla de contenidos:

En el siguiente artículo compartimos un tutorial paso a paso para empezar a usar Databricks. Además, explicamos cuáles son las principales ventajas de esta herramienta y mostramos dónde empezar a probarla de manera gratuita.

 

¿Por qué Databricks?

Databricks es una de las tecnologías más buscadas en el mundo de los datos. Se trata de una herramienta que simplifica notablemente las tareas de quienes trabajamos en data & AI. En este otro artículo explicamos qué es y cuáles son las cinco características que hay que conocer para empezar a usarla.

Workspace de Databricks

 

¿Cuáles son las principales ventajas de Databricks?

A continuación, explicamos cuáles son las cuatro principales ventajas de esta tecnología:

 1) Simplicidad

Databricks funciona como un sistema distribuido que puede configurarse de forma muy simple. Con apenas un clic, podremos contar con la capacidad de cómputo de un cluster de Spark.

Quienes trabajan en datos desde hace tiempo, sabrán que configurar este tipo de tecnología no siempre fue algo sencillo, de hecho, los sistemas distribuidos, siempre fueron un nicho que en 2009 —producto la necesidad de resolver el problema de la capacidad de almacenamiento de datos y la capacidad de cómputo— empezaron a masificarse. Esto implicó un regreso a la complejidad en su configuración.

Sin embargo, a partir del surgimiento de Databricks, se simplifica realmente el acceso a los sistemas distribuidos y, por ende, a todos sus beneficios.

 

2) Potencia y elasticidad

La sencillez de Databricks, no va en contra de su potencia. Detrás de esta plataforma, implementamos un sistema con la capacidad y la potencia de Spark que, además, está montado 100% en nube. Entonces, no por ser simple, pierde capacidad de cómputo o potencia.

Lo interesante de esto es la flexibilidad. Si tenemos que procesar algo que requiere demasiada capacidad de cómputo simplemente usaremos más hardware, más nodos o más capacidad. Por el contrario, si necesitamos menos, usaremos menos. Incluso, si hay momentos en los que no necesitamos nada, directamente no lo vamos a usar.

Por lo tanto, Databricks es una plataforma costo-efectiva que nos permite evitar gastar recursos de más. Para quienes trabajamos en datos, esto es una ventaja muy importante ya que, por lo general, las trazas de procesamiento varían mucho a lo largo del día.

 

3) Para todos los perfiles de datos

Al ser fácil de usar, al tener mucha capacidad de cómputo y al ser elástica, Databricks es una plataforma que sirve para todo lo que queramos crear con los datos y para todo tipo de perfiles.

Cualquier perfil que tenga que trabajar con datos, en esta plataforma va a poder hacerlo sin ningún problema: ya sean personas usuarias de negocio que quieran usar un tablero, o científicos/as de datos, o especialistas en inteligencia artificial que estén implementando un bot basado en IA generativa, o ingenieros/as de datos, etc.

Esta ventaja es muy importante porque nos permite usar un único espacio para que trabajen equipos que son cada vez más grandes y multidisciplinarios.

 

4) Basada en una arquitectura libre

Su arquitectura se basa en componentes open source. Esto no implica que sea gratis, significa que el vendor lock-in es bajo.

Supongamos que tenemos que construir un data lake con teras y teras de datos que representa la realidad de mi negocio, el hecho que esté basado en componentes libres significa que, si el día de mañana queremos ir de Databricks a otra tecnología, podremos hacerlo y el costo no será tan elevado.

Nuestros datos estarán almacenados en un formato libre y estarán en un lugar que nosotros mismos vamos a poder a gestionar. Entonces, si queremos migrar, no tendremos que copiar los datos y llevarlos, simplemente estarán en un lugar en el que los podremos procesar como consideremos.

 

¿Cómo usar Databricks?

En el siguiente tutorial, Rocío Klan, arquitecta de Datos de Datalytics y Guillermo Watson, CDO de Datalytics, explican paso a paso cómo usar Databricks a partir de un caso práctico.

 

En el video van a encontrar: 

  • ¿Cómo convertir las tablas en un modelo estrella tradicional?
  • Exploración del entorno de trabajo de Databricks.
  • Guía para crear tablas en Databricks a partir de un modelo dimensional.
  • Una visión detallada del catálogo de datos (Catalog IA).
  • Procesos de carga y gestión de tablas dependientes.
  • Desarrollo de un dashboard en Databricks.
  • Seguimiento del linaje de datos.
  • Introducción a Delta Lake Timetravel.
  • Colaboración eficaz en el entorno de trabajo.
  • Desglose de la arquitectura Medallero (oro, plata y bronce).
  • Presentación de Unity Catalog, herramienta para el Gobierno de Datos.
  • Exploración del Marketplace.

  

¿Dónde empezar a usar Databricks?

Si les interesa probar la herramienta, pueden abrirse una cuenta de manera gratuita en Databricks Community y acceder a todo el front-end de Databricks. En el sitio podrán probar las características principales para comenzar a utilizar la herramienta.

Compartir: