From a8f9a57279a1869929ce704d30a3239045cb2fb5 Mon Sep 17 00:00:00 2001 From: Marc Beninca Date: Thu, 13 Aug 2020 21:44:56 +0200 Subject: [PATCH] outliers --- cnam/travaux/probatoire/document.bib | 10 +++++ cnam/travaux/probatoire/document.tex | 4 +- .../probatoire/document/principles.tex | 44 +++++++++++++++---- cnam/travaux/probatoire/todo | 1 + 4 files changed, 48 insertions(+), 11 deletions(-) diff --git a/cnam/travaux/probatoire/document.bib b/cnam/travaux/probatoire/document.bib index defbb22..9945e88 100644 --- a/cnam/travaux/probatoire/document.bib +++ b/cnam/travaux/probatoire/document.bib @@ -71,6 +71,16 @@ publisher = "O'Reilly", pages = "164", } +@article{scaling, +author = "Minaxi Arora and Lekha Bhambhu", +title = "Role of Scaling in Data Classification Using SVM", +year = "2014", +journal = "IJARCSSE", +volume = "4", +issue = "10", +pages = "271-273", +} + @book{multi-class, author = "Paresh Deka", title = "A primer on machine learning applications in civil engineering", diff --git a/cnam/travaux/probatoire/document.tex b/cnam/travaux/probatoire/document.tex index fa9f2cf..b7ad73e 100644 --- a/cnam/travaux/probatoire/document.tex +++ b/cnam/travaux/probatoire/document.tex @@ -22,12 +22,12 @@ urlcolor=blue, %⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅ \newcommand{\fig}[4]{\begin{figure}[H]\begin{center} \includegraphics[height=#3]{images/#4.png} -\caption{#2}\end{center}\end{figure}} +\label{#1}\caption{#2}\end{center}\end{figure}} %⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅ \newcommand{\bifig}[5]{\begin{figure}[H]\begin{center} \includegraphics[height=#3]{images/#4.png} \includegraphics[height=#3]{images/#5.png} -\caption{#2}\end{center}\end{figure}} +\label{#1}\caption{#2}\end{center}\end{figure}} %⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅ \newcommand{\hr}{\rule{\textwidth}{1pt}} \newcommand{\hrq}{\rule{.25\textwidth}{1pt}} diff --git a/cnam/travaux/probatoire/document/principles.tex b/cnam/travaux/probatoire/document/principles.tex index 4e8d7c1..282ac46 100644 --- a/cnam/travaux/probatoire/document/principles.tex +++ b/cnam/travaux/probatoire/document/principles.tex @@ -23,8 +23,8 @@ Cette approche se révèle appropriée dans de nombreux cas d’utilisation : En fonction du type de problèmes, deux types de résolution : \begin{itmz} -\item{\textbf{régression}} -\item{\textbf{classification}} +\item{\textbf{régression} → nombre} +\item{\textbf{classification} → catégorie} \end{itmz} En fonction des \glspl{ds}, deux types d’approches mathématiques : @@ -48,7 +48,8 @@ au risque d’engendrer un surentraînement si trop importante} \subsection{Régression} Un hyperparamètre \textbf{ε} permet de fait varier l’épaisseur de la marge, -afin d’y inclure le plus de données possible. +pour y inclure le plus de données possible. +Les éléments exclus sont identifiés en rose. \subsubsection{Régression linéaire} @@ -73,19 +74,42 @@ Il s’agit du type de résolution le plus fréquemment utilisé. \subsubsection{Classification linéaire} -… +Cette section se penche sur la classification de 2 espèces d’iris, +en fonction des longueurs et largeurs de leurs pétales. -\bifig{}{Vaste marge \cite{homl-large-scale}} +La figure de gauche montre que dans l’absolu, un grand nombre de droites +peut séparer correctement les 2 ensembles à classifier. +La figure de droite montre cependant qu’en utilisant les éléments +les plus proches, appelés dans ce cas \glspl{sv}, il est alors possible +de définir une marge de séparation la plus large qui soit, afin de +déterminer la droite médiane de séparation la plus efficace. + +Ce processus est couramment appelé Séparation à Vaste Marge. + +\bifig{}{Séparation à Vaste Marge \cite{homl-large-scale}} {9em}{margin_large_left}{margin_large_right} -… +Un changement d’échelle préalable aide à la séparation des données, +et peut mener à une meilleure efficacité du modèle pour la classification. +\cite{scaling} -\bifig{}{ \cite{homl-large-scale}} +La figure de droite montre l’inclusion d’un \gls{sv} supplémentaire. + +\bifig{}{Changements d’échelles de dimensions \cite{homl-large-scale}} {10em}{margin_scale_left}{margin_scale_right} -… +\pagebreak -\bifig{}{ \cite{homl-hard-few}} +Cette approche peut être perturbée par 2 problématiques distinctes. + +La figure de droite montre par exemple des \glspl{sv} tellement proches, +que la pertinence du modèle s’en trouve forcément impactée, réduisant +ainsi la fiabilité de la séparation. + +La figure de gauche montre quant à elle une anomalie (outlier), +rendant de fait toute séparation linéaire impossible. + +\bifig{}{Sensibilité de vaste marge aux anomalies \cite{homl-hard-few}} {9em}{margin_hard_left}{margin_hard_right} … @@ -95,6 +119,8 @@ Il s’agit du type de résolution le plus fréquemment utilisé. … +\pagebreak + \subsubsection{Classification non linéaire} … diff --git a/cnam/travaux/probatoire/todo b/cnam/travaux/probatoire/todo index ab59cb7..d81f88d 100644 --- a/cnam/travaux/probatoire/todo +++ b/cnam/travaux/probatoire/todo @@ -1,3 +1,4 @@ +listoffigures conclusion résumé mots-clés