87 lines
3.2 KiB
TeX
87 lines
3.2 KiB
TeX
\section{Introduction}
|
|
|
|
Les \gls{tic} ont fait émerger des \gls{si} de grande envergure, qui génèrent
|
|
continuellement une quantité globale toujours plus importante de données,
|
|
communément appelée \gls{bd}.
|
|
|
|
Les volumes démesurés de données manipulés par ces \gls{si} sont clairement
|
|
incompatibles avec les principes classiques des \gls{sgbd}.
|
|
De nouvelles méthodologies ont donc dû être créées afin de pouvoir
|
|
analyser puis exploiter ces \gls{bd}.
|
|
|
|
\subsection{Le \gls{ml}}
|
|
|
|
Ce concept regroupe les différentes nouvelles approches méthodologiques
|
|
permettant de faire ressortir une compréhension des \gls{bd}, en extraire
|
|
des \glspl{dataset} exploitables puis, à partir de cet apprentissage,
|
|
être en mesure de comprendre de nouvelles données.
|
|
|
|
Les 2 défis à relever pour être pertinents dans cette démarche :
|
|
\begin{itmz}
|
|
\item{ne pas surentraîner (spécialiser) l’apprentisseur automatique\\
|
|
pour conserver une capacité de généralisation}
|
|
\item{pour chaque type de problèmes à résoudre,\\
|
|
choisir les algorithmes les plus pertinents}
|
|
\end{itmz}
|
|
|
|
\subsection{Méthodes non supervisées}
|
|
|
|
Ces premières méthodes permettent de travailler avec un ensemble d’éléments
|
|
ne disposant pas d’étiquetage préalable, elles mettent ainsi en place
|
|
des mécanismes permettant de faire du \gls{clustering} de ces éléments.
|
|
|
|
Exemples d’algorithmes :
|
|
\begin{itmz}
|
|
\item{k-means (moyennes)}
|
|
\item{réduction de dimensionnalité}
|
|
\item{réseaux de neurones}
|
|
\item{analyse des composants principaux ou indépendants}
|
|
\item{modèles de distribution}
|
|
\item{classification hiérarchique}
|
|
\item{\gls{clustering} par décalage moyen}
|
|
\item{Apriori}
|
|
\end{itmz}
|
|
|
|
\subsection{Méthodes semi-supervisées}
|
|
|
|
Ces méthodes autorisent l’utilisation d’un ensemble d’éléments hétérogène,
|
|
certains étant ayant déjà été étiquetés au préalable, alors que d’autres non.
|
|
Un mélange de différentes techniques s’avère donc être nécessaire.
|
|
|
|
Exemples d’algorithmes :
|
|
\begin{itmz}
|
|
\item{\gls{hbos}}
|
|
\item{forêts isolées}
|
|
\item{autoencodeurs}
|
|
\end{itmz}
|
|
|
|
\subsection{Méthodes supervisées}
|
|
|
|
Ces dernières méthodes utilisent un ensemble d’éléments intégralement étiquetés,
|
|
ayant une valeur de sortie pour plusieurs valeurs de variables en entrée.
|
|
Ces données d’apprentissage permettent après entraînement de pouvoir
|
|
prévoir des valeurs de sortie correctes à partir de nouvelles valeurs en entrée.
|
|
|
|
Ces prédictions sont de 2 types :
|
|
\begin{itmz}
|
|
\item{régression → la valeur sortante est un nombre}
|
|
\item{classification → la valeur sortante est une catégorie}
|
|
\end{itmz}
|
|
|
|
Exemples d’algorithmes :
|
|
\begin{itmz}
|
|
\item{régressions linéaire, logistique ou vectorielle}
|
|
\item{arbres de régression, classification}
|
|
\item{k-\gls{nn} (plus proches voisins)}
|
|
\item{classificateur Naïve Bayes}
|
|
\item{réseaux de neurones}
|
|
\item{\gls{svm}}
|
|
\end{itmz}
|
|
|
|
Ce sont ces \gls{svm} qui feront l’objet d’étude du présent document.
|
|
Après en avoir abordé les différents principes sous-jacents,
|
|
une analyse critique sera proposée en se basant sur les avantages,
|
|
inconvénients et limitations de ce type d’algorithmes
|
|
dans le cadre d’un exemple d’application.
|
|
|
|
\pagebreak
|