cnam.marc/cnam/travaux/probatoire/document/introduction.tex

\section{Introduction}

Les \gls{tic} ont fait émerger des \gls{si} de grande envergure, qui génèrent
continuellement une quantité globale toujours plus importante de données,
communément appelée \gls{bd}.

Les volumes démesurés de données manipulés par ces \gls{si} sont clairement
incompatibles avec les principes classiques des \gls{sgbd}.
De nouvelles méthodologies ont donc dû être créées afin de pouvoir
analyser puis exploiter ces \gls{bd}.

\subsection{Le \gls{ml}}

Ce concept regroupe les différentes nouvelles approches méthodologiques
permettant de faire ressortir une compréhension des \gls{bd}, en extraire
des \glspl{dataset} exploitables puis, à partir de cet apprentissage,
être en mesure de comprendre de nouvelles données.

Les 2 défis à relever pour être pertinents dans cette démarche :
\begin{itmz}
\item{ne pas surentraîner (spécialiser) l’apprentisseur automatique\\
pour conserver une capacité de généralisation}
\item{pour chaque type de problèmes à résoudre,\\
choisir les algorithmes les plus pertinents}
\end{itmz}

\subsection{Méthodes non supervisées}

Ces premières méthodes permettent de travailler avec un ensemble d’éléments
ne disposant pas d’étiquetage préalable, elles mettent ainsi en place
des mécanismes permettant de faire du \gls{clustering} de ces éléments.

Exemples d’algorithmes :
\begin{itmz}
\item{k-means (moyennes)}
\item{réduction de dimensionnalité}
\item{réseaux de neurones}
\item{analyse des composants principaux ou indépendants}
\item{modèles de distribution}
\item{classification hiérarchique}
\item{\gls{clustering} par décalage moyen}
\item{Apriori}
\end{itmz}

\subsection{Méthodes semi-supervisées}

Ces méthodes autorisent l’utilisation d’un ensemble d’éléments hétérogène,
certains étant ayant déjà été étiquetés au préalable, alors que d’autres non.
Un mélange de différentes techniques s’avère donc être nécessaire.

Exemples d’algorithmes :
\begin{itmz}
\item{\gls{hbos}}
\item{forêts isolées}
\item{autoencodeurs}
\end{itmz}

\subsection{Méthodes supervisées}

Ces dernières méthodes utilisent un ensemble d’éléments intégralement étiquetés,
ayant une valeur de sortie pour plusieurs valeurs de variables en entrée.
Ces données d’apprentissage permettent après entraînement de pouvoir
prévoir des valeurs de sortie correctes à partir de nouvelles valeurs en entrée.

Ces prédictions sont de 2 types :
\begin{itmz}
\item{régression → la valeur sortante est un nombre}
\item{classification → la valeur sortante est une catégorie}
\end{itmz}

Exemples d’algorithmes :
\begin{itmz}
\item{régressions linéaire, logistique ou vectorielle}
\item{arbres de régression, classification}
\item{k-\gls{nn} (plus proches voisins)}
\item{classificateur Naïve Bayes}
\item{réseaux de neurones}
\item{\gls{svm}}
\end{itmz}

Ce sont ces \gls{svm} qui feront l’objet d’étude du présent document.
Après en avoir abordé les différents principes sous-jacents,
une analyse critique sera proposée en se basant sur les avantages,
inconvénients et limitations de ce type d’algorithmes
dans le cadre d’un exemple d’application.

\pagebreak