cnam.marc/cnam/travaux/probatoire/document/principles.tex
Marc Beninca a8f9a57279 outliers
2020-08-13 21:44:56 +02:00

157 lines
5 KiB
TeX

\section{Principes}
L’approche \gls{svm} est un ensemble de méthodes supervisées utilisant :
\begin{enum}
\item{un \gls{ds} d’apprentissage pour entraîner l’algorithme,\\
et qui fait donc office de superviseur}
\item{un \gls{ds} de test pour vérifier sa pertinence}
\end{enum}
Cette approche se révèle appropriée dans de nombreux cas d’utilisation :
\begin{itmz}
\item{filtrage d’email, courriel légitime ou pourriel (phishing, spam)}
\item{classification d’images, quel que soit le \gls{si}}
\item{détection de \gls{sgn} dans des fichiers multimédias}
\item{quantification de granularité dans des textures}
\item{reconnaissance de caractères dans des images}
\item{classification d’expressions faciales dans des images}
\item{reconnaissance vocale dans des échantillons sonores}
\item{classification de protéines}
\item{établissement de diagnostics médicaux}
\item{classification de documents en différentes catégories}
\end{itmz}
En fonction du type de problèmes, deux types de résolution :
\begin{itmz}
\item{\textbf{régression} → nombre}
\item{\textbf{classification} → catégorie}
\end{itmz}
En fonction des \glspl{ds}, deux types d’approches mathématiques :
\begin{itmz}
\item{\textbf{linéaire} : la plus simple}
\item{\textbf{non linéaire} : faisant appel à des \glspl{kf}}
\end{itmz}
Quatre paramètres permettent d’affiner le modèle :
\begin{itmz}
\item{\textbf{noyau} : linéaire, \gls{rbf}, polynominal ou \gls{sigmoid}}
\item{\textbf{degré} : aide à trouver un \gls{hpp} séparateur en contexte polynominal,
faisant rapidement augmenter le temps nécessaire à l’entraînement}
\item{\textbf{gamma} : pour les \glspl{hpp} non linéaires}
\item{\textbf{C} : pénalité augmentant la distance des données prises en compte,\\
au risque d’engendrer un surentraînement si trop importante}
\end{itmz}
\pagebreak
\subsection{Régression}
Un hyperparamètre \textbf{ε} permet de fait varier l’épaisseur de la marge,
pour y inclure le plus de données possible.
Les éléments exclus sont identifiés en rose.
\subsubsection{Régression linéaire}
Régression la plus simple : une approximation affine est suffisante.
\bifig{}{Régression linéaire, variation d’ε \cite{homl-linear}}
{15em}{regression_linear_left}{regression_linear_right}
\subsubsection{Régression non linéaire}
Régression nécessitant l’utilisation d’une fonction noyau.\\
Une plus grande valeur de C intègre des données plus éloignées.
\bifig{}{Régression polynominale de degré 2, variation de C \cite{homl-nonlinear}}
{15em}{regression_nonlinear_left}{regression_nonlinear_right}
\pagebreak
\subsection{Classification}
Il s’agit du type de résolution le plus fréquemment utilisé.
\subsubsection{Classification linéaire}
Cette section se penche sur la classification de 2 espèces d’iris,
en fonction des longueurs et largeurs de leurs pétales.
La figure de gauche montre que dans l’absolu, un grand nombre de droites
peut séparer correctement les 2 ensembles à classifier.
La figure de droite montre cependant qu’en utilisant les éléments
les plus proches, appelés dans ce cas \glspl{sv}, il est alors possible
de définir une marge de séparation la plus large qui soit, afin de
déterminer la droite médiane de séparation la plus efficace.
Ce processus est couramment appelé Séparation à Vaste Marge.
\bifig{}{Séparation à Vaste Marge \cite{homl-large-scale}}
{9em}{margin_large_left}{margin_large_right}
Un changement d’échelle préalable aide à la séparation des données,
et peut mener à une meilleure efficacité du modèle pour la classification.
\cite{scaling}
La figure de droite montre l’inclusion d’un \gls{sv} supplémentaire.
\bifig{}{Changements d’échelles de dimensions \cite{homl-large-scale}}
{10em}{margin_scale_left}{margin_scale_right}
\pagebreak
Cette approche peut être perturbée par 2 problématiques distinctes.
La figure de droite montre par exemple des \glspl{sv} tellement proches,
que la pertinence du modèle s’en trouve forcément impactée, réduisant
ainsi la fiabilité de la séparation.
La figure de gauche montre quant à elle une anomalie (outlier),
rendant de fait toute séparation linéaire impossible.
\bifig{}{Sensibilité de vaste marge aux anomalies \cite{homl-hard-few}}
{9em}{margin_hard_left}{margin_hard_right}
\bifig{}{ \cite{homl-hard-few}}
{9em}{margin_few_left}{margin_few_right}
\pagebreak
\subsubsection{Classification non linéaire}
\bifig{}{Séparabilité linéaire \cite{homl-nonlinear-linear}}
{14em}{nonlinear_linear_left}{nonlinear_linear_right}
\fig{}{ \cite{homl-feat-poly}}
{9em}{features_polynomial}
\bifig{}{\Gls{kf} polynominale \cite{homl-poly}}
{14em}{kernel_polynomial_left}{kernel_polynomial_right}
\bifig{}{ \cite{homl-feat-simi}}
{14em}{features_similar_left}{features_similar_right}
\bifig{}{\Gls{kf} gaussien \gls{rbf} \cite{homl-rbf}}
{26em}{kernel_rbf_left}{kernel_rbf_right}
Référence multi-classes \cite{multi-class}
Référence optimisation \cite{mri} \cite{optimization}
\pagebreak