88 lines
3.2 KiB
TeX
88 lines
3.2 KiB
TeX
\section{Introduction}
|
|
|
|
Les \gls{tic} ont fait émerger des \gls{si} de grande envergure, qui génèrent
|
|
continuellement une quantité globale toujours plus importante de données,
|
|
communément appelée \gls{bd}.
|
|
|
|
Les volumes démesurés de données manipulés par ces \gls{si} sont clairement
|
|
incompatibles avec les principes classiques des \gls{sgbd}.
|
|
De nouvelles méthodologies ont donc dû être créées afin de pouvoir
|
|
analyser puis exploiter ces \gls{bd}.
|
|
|
|
\subsection{Machine learning}
|
|
|
|
Le \gls{ml} regroupe les différentes nouvelles approches méthodologiques
|
|
permettant de faire ressortir une compréhension des \gls{bd}, en extraire
|
|
des \glspl{ds} exploitables puis, à partir de cet apprentissage,
|
|
être en mesure de comprendre de nouvelles données.
|
|
|
|
Les 2 défis à relever pour être pertinents dans cette démarche :
|
|
\begin{itmz}
|
|
\item{ne pas surentraîner (spécialiser) l’apprentisseur automatique,\\
|
|
pour conserver une capacité de généralisation}
|
|
\item{pour chaque type de problèmes à résoudre,\\
|
|
choisir les algorithmes les plus pertinents}
|
|
\end{itmz}
|
|
|
|
\subsection{Méthodes}
|
|
|
|
\subsubsection{Méthodes non supervisées}
|
|
|
|
Ces premières méthodes permettent de travailler avec un ensemble d’éléments
|
|
ne disposant pas d’étiquetage préalable, elles mettent ainsi en place
|
|
des mécanismes permettant de faire du \gls{clustering} de ces éléments.
|
|
|
|
Exemples d’algorithmes :
|
|
\begin{itmz}
|
|
\item{k-means (moyennes)}
|
|
\item{réduction de dimensionnalité}
|
|
\item{réseaux de neurones}
|
|
\item{analyse des composants principaux ou indépendants}
|
|
\item{modèles de distribution}
|
|
\item{classification hiérarchique}
|
|
\item{\gls{clustering} par décalage moyen}
|
|
\item{Apriori}
|
|
\end{itmz}
|
|
|
|
\subsubsection{Méthodes semi-supervisées}
|
|
|
|
Ces méthodes autorisent l’utilisation d’un ensemble d’éléments hétérogène,
|
|
certains étant ayant déjà été étiquetés au préalable, alors que d’autres non.
|
|
Un mélange de différentes techniques s’avère donc être nécessaire.
|
|
|
|
Exemples d’algorithmes :
|
|
\begin{itmz}
|
|
\item{\gls{hbos}}
|
|
\item{forêts isolées}
|
|
\item{autoencodeurs}
|
|
\end{itmz}
|
|
|
|
\subsubsection{Méthodes supervisées}
|
|
|
|
Ces méthodes utilisent 2 sous-ensembles d’éléments intégralement étiquetés,
|
|
ayant une valeur de sortie pour plusieurs valeurs de variables en entrée.
|
|
Les données d’apprentissage permettent un entraînement préalable du modèle.
|
|
Les données de test permettent ensuite d’en évaluer la pertinence.
|
|
|
|
Le modèle permet enfin, à partir de nouvelles valeurs en entrée,
|
|
de fournir des valeurs de sortie prédictives de 2 types :
|
|
\begin{itmz}
|
|
\item{régression → la valeur est un nombre}
|
|
\item{classification → la valeur est une catégorie, parmi un ensemble défini}
|
|
\end{itmz}
|
|
|
|
Exemples d’algorithmes :
|
|
\begin{itmz}
|
|
\item{régressions linéaire, logistique ou vectorielle}
|
|
\item{arbres de régression, classification}
|
|
\item{k-\gls{nn} (plus proches voisins)}
|
|
\item{classificateur Naïve Bayes}
|
|
\item{réseaux de neurones}
|
|
\item{\gls{svm}}
|
|
\end{itmz}
|
|
|
|
Ce sont ces \gls{svm} qui feront l’objet d’étude du présent document.
|
|
En seront passés en revue les différents principes techniques sous-jacents,
|
|
un exemple d’application, ainsi qu’un regard critique sur ce type d’algorithmes.
|
|
|
|
\pagebreak
|