outliers

2020-08-13 21:44:56 +02:00 · 2020-08-13 21:44:56 +02:00 · a8f9a57279
commit a8f9a57279
parent 6ee4befc0c
4 changed files with 48 additions and 11 deletions
--- a/cnam/travaux/probatoire/document.bib
+++ b/cnam/travaux/probatoire/document.bib
@ -71,6 +71,16 @@ publisher = "O'Reilly",
 pages     = "164",
 }
@article{scaling,
 author    = "Minaxi Arora and Lekha Bhambhu",
 title     = "Role of Scaling in Data Classification Using SVM",
 year      = "2014",
 journal   = "IJARCSSE",
 volume    = "4",
 issue     = "10",
 pages     = "271-273",
 }
@book{multi-class,
 author    = "Paresh Deka",
 title     = "A primer on machine learning applications in civil engineering",
--- a/cnam/travaux/probatoire/document.tex
+++ b/cnam/travaux/probatoire/document.tex
@ -22,12 +22,12 @@ urlcolor=blue,
 %⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅
 \newcommand{\fig}[4]{\begin{figure}[H]\begin{center}
 \includegraphics[height=#3]{images/#4.png}
-\caption{#2}\end{center}\end{figure}}
+\label{#1}\caption{#2}\end{center}\end{figure}}
 %⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅
 \newcommand{\bifig}[5]{\begin{figure}[H]\begin{center}
 \includegraphics[height=#3]{images/#4.png}
 \includegraphics[height=#3]{images/#5.png}
-\caption{#2}\end{center}\end{figure}}
+\label{#1}\caption{#2}\end{center}\end{figure}}
 %⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅
 \newcommand{\hr}{\rule{\textwidth}{1pt}}
 \newcommand{\hrq}{\rule{.25\textwidth}{1pt}}
--- a/cnam/travaux/probatoire/document/principles.tex
+++ b/cnam/travaux/probatoire/document/principles.tex
@ -23,8 +23,8 @@ Cette approche se révèle appropriée dans de nombreux cas d’utilisation :
 En fonction du type de problèmes, deux types de résolution :
 \begin{itmz}
-\item{\textbf{régression}}
+\item{\textbf{régression} → nombre}
-\item{\textbf{classification}}
+\item{\textbf{classification} → catégorie}
 \end{itmz}
 En fonction des \glspl{ds}, deux types d’approches mathématiques :
@ -48,7 +48,8 @@ au risque d’engendrer un surentraînement si trop importante}
 \subsection{Régression}
 Un hyperparamètre \textbf{ε} permet de fait varier l’épaisseur de la marge,
-afin d’y inclure le plus de données possible.
+pour y inclure le plus de données possible.
 Les éléments exclus sont identifiés en rose.
 \subsubsection{Régression linéaire}
@ -73,19 +74,42 @@ Il s’agit du type de résolution le plus fréquemment utilisé.
 \subsubsection{Classification linéaire}
-…
+Cette section se penche sur la classification de 2 espèces d’iris,
 en fonction des longueurs et largeurs de leurs pétales.
-\bifig{}{Vaste marge \cite{homl-large-scale}}
+La figure de gauche montre que dans l’absolu, un grand nombre de droites
 peut séparer correctement les 2 ensembles à classifier.
 La figure de droite montre cependant qu’en utilisant les éléments
 les plus proches, appelés dans ce cas \glspl{sv}, il est alors possible
 de définir une marge de séparation la plus large qui soit, afin de
 déterminer la droite médiane de séparation la plus efficace.
 Ce processus est couramment appelé Séparation à Vaste Marge.
 \bifig{}{Séparation à Vaste Marge \cite{homl-large-scale}}
 {9em}{margin_large_left}{margin_large_right}
-…
+Un changement d’échelle préalable aide à la séparation des données,
 et peut mener à une meilleure efficacité du modèle pour la classification.
 \cite{scaling}
-\bifig{}{ \cite{homl-large-scale}}
+La figure de droite montre l’inclusion d’un \gls{sv} supplémentaire.
 \bifig{}{Changements d’échelles de dimensions \cite{homl-large-scale}}
 {10em}{margin_scale_left}{margin_scale_right}
-…
+\pagebreak
-\bifig{}{ \cite{homl-hard-few}}
+Cette approche peut être perturbée par 2 problématiques distinctes.
 La figure de droite montre par exemple des \glspl{sv} tellement proches,
 que la pertinence du modèle s’en trouve forcément impactée, réduisant
 ainsi la fiabilité de la séparation.
 La figure de gauche montre quant à elle une anomalie (outlier),
 rendant de fait toute séparation linéaire impossible.
 \bifig{}{Sensibilité de vaste marge aux anomalies \cite{homl-hard-few}}
 {9em}{margin_hard_left}{margin_hard_right}
 …
@ -95,6 +119,8 @@ Il s’agit du type de résolution le plus fréquemment utilisé.
 …
 \pagebreak
 \subsubsection{Classification non linéaire}
 …
--- a/cnam/travaux/probatoire/todo
+++ b/cnam/travaux/probatoire/todo
@ -1,3 +1,4 @@
 listoffigures
 conclusion
 résumé
 mots-clés