Knowledge Base

Knowledge Base

Running PySpark & Jupyter With Docker

June 8, 2023

Thanks to the Jupyter community, it’s now much easier to run PySpark on Jupyter using Docker. There are two ways you can do this : 1. the “direct” way and 2. the customized way.

The “direct” way #

verify your local settings are aligned with the pre-requisites to run this container, grosso modo make sure docker is installed, of course !
You have to have about 4 GB of free space
...

Git commands I often use

January 20, 2020

Utils

Git, Shell, Development

Add #

# only add files with .scala extension
git ls-files [path] | grep '\.scala$' | xargs git add
git stash --keep-index

How to document your code?

July 12, 2019

Development, Tutorials

Scala, Templates, Development

Comment documenter ? #

Les mêmes principes et critères d’un bon code devraient s’appliquer à la documentation:

Conventionnelle
Simple
Facile à comprendre

En plus des critères d’un bon code, une bonne documentation devrait aussi être:

Explicative (intention du code, règles métiers, clarification du code, mise en garde sur les conséquences d’une mauvaise utilisation, indications pour le testing)
Non-redondante

/**
* Returns the temperature.
*/
int get_temperature(void) {
return temperature;
}

Non-bruitée

/**
* Always returns true.
*/
public boolean isAvailable()
{ return false;}

Bonnes pratiques #

Introduire son code. #

Décrire le contexte ou le background du code est une bonne pratique qui permettra aux lecteurs de se positionner par rapport aux conditions dans lesquelles le code a été généré et à ses objectifs.

...

Hive

April 2, 2018

Utils

Sql, Hql, Development

Snippets #

-- set identifiers to none for the query below to work and 
-- set it back to column once it's done
set hive.support.quoted.identifiers = none;

HIVE 3 #

BI Code typically use db.table - needs to change to db.table
Default path : /warehouse/tablespace/external/hive/default.db/test_table

Resources & Useful Links #

ACID + HIVE