cnam.marc/cnam/travaux/probatoire/document/introduction.tex

\section{Introduction}

Les \gls{tic} ont fait émerger des \gls{si} de grande envergure, qui génèrent
continuellement une quantité globale toujours plus importante de données,
communément appelée \gls{bd}.

Les volumes démesurés de données manipulés par ces \gls{si} sont clairement
incompatibles avec les principes classiques des \gls{sgbd}.
De nouvelles méthodologies ont donc dû être créées afin de pouvoir
analyser puis exploiter ces \gls{bd}.

\subsection{Machine learning}

Le \gls{ml} regroupe les différentes nouvelles approches méthodologiques
permettant de faire ressortir une compréhension des \gls{bd}, en extraire
des \glspl{ds} exploitables puis, à partir de cet apprentissage,
être en mesure de comprendre de nouvelles données.

Les 2 défis à relever pour être pertinents dans cette démarche :
\begin{itmz}
\item{ne pas surentraîner (spécialiser) l’apprentisseur automatique,\\
pour conserver une capacité de généralisation}
\item{pour chaque type de problèmes à résoudre,\\
choisir les algorithmes les plus pertinents}
\end{itmz}

\subsection{Méthodes}

\subsubsection{Méthodes non supervisées}

Ces premières méthodes permettent de travailler avec un ensemble d’éléments
ne disposant pas d’étiquetage préalable, elles mettent ainsi en place
des mécanismes permettant de faire du \gls{clustering} de ces éléments.

Exemples d’algorithmes :
\begin{itmz}
\item{k-means (moyennes)}
\item{réduction de dimensionnalité}
\item{réseaux de neurones}
\item{analyse des composants principaux ou indépendants}
\item{modèles de distribution}
\item{classification hiérarchique}
\item{\gls{clustering} par décalage moyen}
\item{Apriori}
\end{itmz}

\subsubsection{Méthodes semi-supervisées}

Ces méthodes autorisent l’utilisation d’un ensemble d’éléments hétérogène,
certains étant ayant déjà été étiquetés au préalable, alors que d’autres non.
Un mélange de différentes techniques s’avère donc être nécessaire.

Exemples d’algorithmes :
\begin{itmz}
\item{\gls{hbos}}
\item{forêts isolées}
\item{autoencodeurs}
\end{itmz}

\subsubsection{Méthodes supervisées}

Ces méthodes utilisent 2 sous-ensembles d’éléments intégralement étiquetés,
ayant une valeur de sortie pour plusieurs valeurs de variables en entrée.
Les données d’apprentissage permettent un entraînement préalable du modèle.
Les données de test permettent ensuite d’en évaluer la pertinence.

Le modèle permet enfin, à partir de nouvelles valeurs en entrée,
de fournir des valeurs de sortie prédictives de 2 types :
\begin{itmz}
\item{régression → la valeur est un nombre}
\item{classification → la valeur est une catégorie, parmi un ensemble défini}
\end{itmz}

Exemples d’algorithmes :
\begin{itmz}
\item{régressions linéaire, logistique ou vectorielle}
\item{arbres de régression, classification}
\item{k-\gls{nn} (plus proches voisins)}
\item{classificateur Naïve Bayes}
\item{réseaux de neurones}
\item{\gls{svm}}
\end{itmz}

Ce sont ces \gls{svm} qui feront l’objet d’étude du présent document.
En seront passés en revue les différents principes techniques sous-jacents,
un exemple d’application, ainsi qu’un regard critique sur ce type d’algorithmes.

\pagebreak