Knowledge Base

Running PySpark & Jupyter With Docker

June 8, 2023
Development, Tutorials
Spark, Docker, Jupyter

Thanks to the Jupyter community, it’s now much easier to run PySpark on Jupyter using Docker. There are two ways you can do this : 1. the “direct” way and 2. the customized way.

The “direct” way #

  • verify your local settings are aligned with the pre-requisites to run this container, grosso modo make sure docker is installed, of course !

    You have to have about 4 GB of free space

    ...

How to document your code?

July 12, 2019
Development, Tutorials
Scala, Templates, Development

Comment documenter ? #

Les mêmes principes et critères d’un bon code devraient s’appliquer à la documentation:

  • Conventionnelle
  • Simple
  • Facile à comprendre

En plus des critères d’un bon code, une bonne documentation devrait aussi être:

  • Explicative (intention du code, règles métiers, clarification du code, mise en garde sur les conséquences d’une mauvaise utilisation, indications pour le testing)
  • Non-redondante
/**
* Returns the temperature.
*/
int get_temperature(void) {
return temperature;
}
  • Non-bruitée
/**
* Always returns true.
*/
public boolean isAvailable()
{ return false;}

Bonnes pratiques #

Introduire son code. #

Décrire le contexte ou le background du code est une bonne pratique qui permettra aux lecteurs de se positionner par rapport aux conditions dans lesquelles le code a été généré et à ses objectifs.

...

Hive

April 2, 2018
Utils
Sql, Hql, Development

Snippets #

-- set identifiers to none for the query below to work and 
-- set it back to column once it's done
set hive.support.quoted.identifiers = none;

HIVE 3 #

  • BI Code typically use db.table - needs to change to db.table
  • Default path : /warehouse/tablespace/external/hive/default.db/test_table

ACID + HIVE