intro,glossaries

This commit is contained in:
Marc Beninca 2020-08-05 23:09:56 +02:00
parent dee89347e0
commit bb619d2e6e
2 changed files with 88 additions and 4 deletions

View file

@ -1,5 +1,7 @@
\printglossary[title=Abréviations,type=\acronymtype]
\newacronym{hbos}{HBOS}{Histogram Based Outlier Score}
\newacronym{sgbd}{SGBD}{Systèmes de Gestion de Bases de Données}
\newacronym{si}{SI}{Systèmes d’Information}
\newacronym{svm}{SVM}{Support Vector Machine}
\newacronym{tic}{TIC}{Technologies d’Information et de Communication}
@ -12,6 +14,10 @@
name={big data},
description={données massives}
}
\newglossaryentry{clustering}{
name={clustering},
description={regroupement d’éléments en sous-ensembles caractéristiques}
}
\newglossaryentry{dataset}{
name={dataset},
plural={datasets},

View file

@ -1,9 +1,87 @@
\section{Introduction}
La prédominance des \gls{datasets} de très grande taille
a fait émerger de nouvelles méthodes d’analyse de ces données.
Les \gls{tic} ont fait émerger des \gls{si} de grande envergure, qui génèrent
continuellement une quantité globale toujours plus importante de données,
communément appelée \gls{bd}.
Faisant suite aux méthodes de clustering, les \gls{svm}
permettent de classifier automatiquement les grands jeux de données.
Les volumes démesurés de données manipulés par ces \gls{si} sont clairement
incompatibles avec les principes classiques des \gls{sgbd}.
De nouvelles méthodologies ont donc dû être créées afin de pouvoir
analyser puis exploiter ces \gls{bd}.
\subsection{Le \gls{ml}}
Ce concept regroupe les différentes nouvelles approches méthodologiques
permettant de faire ressortir une compréhension des \gls{bd}, en extraire
des \glspl{dataset} exploitables puis, à partir de cet apprentissage,
être en mesure de comprendre de nouvelles données.
Les 2 défis à relever pour être pertinents dans cette démarche :
\begin{itmz}
\item{ne pas surentraîner (spécialiser) l’apprentisseur automatique\\
pour conserver une capacité de généralisation}
\item{pour chaque type de problèmes à résoudre,\\
choisir les algorithmes les plus pertinents}
\end{itmz}
\subsection{Méthodes non supervisées}
Ces premières méthodes permettent de travailler avec un ensemble d’éléments
ne disposant pas d’étiquetage préalable, elles mettent ainsi en place
des mécanismes permettant de faire du \gls{clustering} de ces éléments.
Exemples d’algorithmes :
\begin{itmz}
\item{k-means}
\item{réduction de dimensionnalité}
\item{réseaux de neurones}
\item{analyse des composants principaux ou indépendants}
\item{modèles de distribution}
\item{classification hiérarchique}
\item{\gls{clustering} par décalage moyen}
\item{Apriori}
\end{itmz}
\subsection{Méthodes semi-supervisées}
Ces méthodes autorisent l’utilisation d’un ensemble d’éléments hétérogène,
certains étant ayant déjà été étiquetés au préalable, alors que d’autres non.
Un mélange de différentes techniques s’avère donc être nécessaire.
Exemples d’algorithmes :
\begin{itmz}
\item{\gls{hbos}}
\item{forêts isolées}
\item{autoencodeurs}
\end{itmz}
\subsection{Méthodes supervisées}
Ces dernières méthodes utilisent un ensemble d’éléments intégralement étiquetés,
ayant une valeur de sortie pour plusieurs valeurs de variables en entrée.
Ces données d’apprentissage permettent après entraînement de pouvoir
prévoir des valeurs de sortie correctes à partir de nouvelles valeurs en entrée.
Ces prédictions sont de 2 types :
\begin{itmz}
\item{régression → la valeur sortante est un nombre}
\item{classification → la valeur sortante est une catégorie}
\end{itmz}
Exemples d’algorithmes :
\begin{itmz}
\item{régressions linéaire, logistique ou vectorielle}
\item{arbres de régression, classification}
\item{K-NN}
\item{classificateur Naïve Bayes}
\item{réseaux de neurones}
\item{\gls{svm}}
\end{itmz}
Ce sont ces \gls{svm} qui feront l’objet d’étude du présent document.
Après en avoir abordé les différents principes sous-jacents,
une analyse critique sera proposée en se basant sur les avantages,
inconvénients et limitations de ce type d’algorithmes
dans le cadre d’un exemple d’application.
\pagebreak