cnam.marc/cnam/travaux/probatoire/document/introduction.tex

89 lines
3.2 KiB
TeX
Raw Normal View History

2020-07-16 00:13:26 +02:00
\section{Introduction}
2020-08-05 23:09:56 +02:00
Les \gls{tic} ont fait émerger des \gls{si} de grande envergure, qui génèrent
continuellement une quantité globale toujours plus importante de données,
communément appelée \gls{bd}.
2020-07-16 01:11:25 +02:00
2020-08-05 23:09:56 +02:00
Les volumes démesurés de données manipulés par ces \gls{si} sont clairement
incompatibles avec les principes classiques des \gls{sgbd}.
De nouvelles méthodologies ont donc dû être créées afin de pouvoir
analyser puis exploiter ces \gls{bd}.
2020-08-08 12:06:15 +02:00
\subsection{Machine learning}
2020-08-05 23:09:56 +02:00
2020-08-08 12:06:15 +02:00
Le \gls{ml} regroupe les différentes nouvelles approches méthodologiques
2020-08-05 23:09:56 +02:00
permettant de faire ressortir une compréhension des \gls{bd}, en extraire
2020-08-10 21:46:33 +02:00
des \glspl{ds} exploitables puis, à partir de cet apprentissage,
2020-08-05 23:09:56 +02:00
être en mesure de comprendre de nouvelles données.
Les 2 défis à relever pour être pertinents dans cette démarche :
\begin{itmz}
2020-08-15 15:31:37 +02:00
\item{ne pas surentraîner (spécialiser) l’apprentisseur automatique,\\
2020-08-05 23:09:56 +02:00
pour conserver une capacité de généralisation}
\item{pour chaque type de problèmes à résoudre,\\
choisir les algorithmes les plus pertinents}
\end{itmz}
2020-08-15 00:46:27 +02:00
\subsection{Méthodes}
\subsubsection{Méthodes non supervisées}
2020-08-05 23:09:56 +02:00
Ces premières méthodes permettent de travailler avec un ensemble d’éléments
ne disposant pas d’étiquetage préalable, elles mettent ainsi en place
des mécanismes permettant de faire du \gls{clustering} de ces éléments.
Exemples d’algorithmes :
\begin{itmz}
2020-08-07 15:39:00 +02:00
\item{k-means (moyennes)}
2020-08-05 23:09:56 +02:00
\item{réduction de dimensionnalité}
\item{réseaux de neurones}
\item{analyse des composants principaux ou indépendants}
\item{modèles de distribution}
\item{classification hiérarchique}
\item{\gls{clustering} par décalage moyen}
\item{Apriori}
\end{itmz}
2020-08-15 00:46:27 +02:00
\subsubsection{Méthodes semi-supervisées}
2020-08-05 23:09:56 +02:00
Ces méthodes autorisent l’utilisation d’un ensemble d’éléments hétérogène,
2020-08-15 15:33:11 +02:00
certains ayant déjà été étiquetés au préalable, alors que d’autres non.
2020-08-15 15:33:59 +02:00
Un mélange de différentes techniques s’avère donc nécessaire.
2020-08-05 23:09:56 +02:00
Exemples d’algorithmes :
\begin{itmz}
\item{\gls{hbos}}
\item{forêts isolées}
\item{autoencodeurs}
\end{itmz}
2020-08-15 00:46:27 +02:00
\subsubsection{Méthodes supervisées}
2020-08-05 23:09:56 +02:00
2020-08-12 23:15:43 +02:00
Ces méthodes utilisent 2 sous-ensembles d’éléments intégralement étiquetés,
2020-08-05 23:09:56 +02:00
ayant une valeur de sortie pour plusieurs valeurs de variables en entrée.
2020-08-12 23:15:43 +02:00
Les données d’apprentissage permettent un entraînement préalable du modèle.
Les données de test permettent ensuite d’en évaluer la pertinence.
2020-08-05 23:09:56 +02:00
2020-08-12 23:15:43 +02:00
Le modèle permet enfin, à partir de nouvelles valeurs en entrée,
de fournir des valeurs de sortie prédictives de 2 types :
2020-08-05 23:09:56 +02:00
\begin{itmz}
2020-08-12 23:15:43 +02:00
\item{régression → la valeur est un nombre}
\item{classification → la valeur est une catégorie, parmi un ensemble défini}
2020-08-05 23:09:56 +02:00
\end{itmz}
Exemples d’algorithmes :
\begin{itmz}
\item{régressions linéaire, logistique ou vectorielle}
\item{arbres de régression, classification}
2020-08-07 15:39:00 +02:00
\item{k-\gls{nn} (plus proches voisins)}
2020-08-05 23:09:56 +02:00
\item{classificateur Naïve Bayes}
\item{réseaux de neurones}
\item{\gls{svm}}
\end{itmz}
Ce sont ces \gls{svm} qui feront l’objet d’étude du présent document.
2020-08-12 23:15:43 +02:00
En seront passés en revue les différents principes techniques sous-jacents,
un exemple d’application, ainsi qu’un regard critique sur ce type d’algorithmes.
2020-07-16 00:13:26 +02:00
\pagebreak