Kender du historien om Titanic, skibet, der ikke kunne synke? Det var på sine jomfrurejse tilbage i 1912, da skibet gik ned med 1316 passagerer og 908 ansatte. Passagererne var fordelt på 1., 2. og 3. klasse. Der var i alt 109 børn, 425 kvinder og 1690 mænd ombord.
På Kaggle har der siden 2012 været en konkurrence om hvilken Machine Learning Model, der bedst kan forudsige overlevelseschancerne for de 2.224 mennesker ombord Titanic ud fra køn, alder, klasse og race/nationalitet. Ud fra tallene er det tydeligt, at kvinder og børn overlevede i højere grad end mænd og dem, der betalte mere overlevede i højere grad end dem, der betalte mindre. Med så tydelig en fordeling er det vel vist med al ønskelig tydelighed, at skibe kun bør befolkes af kvinder og børn, fordi det statistisk set er for farligt for mænd at sejle?
Dén slags galimatias-slutninger kan undgås vha transparens, kontekstforståelse, sund fornuft og ved kvalitativt at undersøge hvad data og beregningerne har udsigekraft om.
“Never send a machine to do a human’s job”, fordi algoritmer er serier af beslutninger taget på baggrund af statistik.