diff --git a/cnam/travaux/probatoire/document/glossaries.tex b/cnam/travaux/probatoire/document/glossaries.tex index 78c3b7d..65c27e8 100644 --- a/cnam/travaux/probatoire/document/glossaries.tex +++ b/cnam/travaux/probatoire/document/glossaries.tex @@ -1,5 +1,7 @@ \printglossary[title=Abréviations,type=\acronymtype] +\newacronym{hbos}{HBOS}{Histogram Based Outlier Score} +\newacronym{sgbd}{SGBD}{Systèmes de Gestion de Bases de Données} \newacronym{si}{SI}{Systèmes d’Information} \newacronym{svm}{SVM}{Support Vector Machine} \newacronym{tic}{TIC}{Technologies d’Information et de Communication} @@ -12,6 +14,10 @@ name={big data}, description={données massives} } +\newglossaryentry{clustering}{ +name={clustering}, +description={regroupement d’éléments en sous-ensembles caractéristiques} +} \newglossaryentry{dataset}{ name={dataset}, plural={datasets}, diff --git a/cnam/travaux/probatoire/document/introduction.tex b/cnam/travaux/probatoire/document/introduction.tex index b6e940a..caaf8ab 100644 --- a/cnam/travaux/probatoire/document/introduction.tex +++ b/cnam/travaux/probatoire/document/introduction.tex @@ -1,9 +1,87 @@ \section{Introduction} -La prédominance des \gls{datasets} de très grande taille -a fait émerger de nouvelles méthodes d’analyse de ces données. +Les \gls{tic} ont fait émerger des \gls{si} de grande envergure, qui génèrent +continuellement une quantité globale toujours plus importante de données, +communément appelée \gls{bd}. -Faisant suite aux méthodes de clustering, les \gls{svm} -permettent de classifier automatiquement les grands jeux de données. +Les volumes démesurés de données manipulés par ces \gls{si} sont clairement +incompatibles avec les principes classiques des \gls{sgbd}. +De nouvelles méthodologies ont donc dû être créées afin de pouvoir +analyser puis exploiter ces \gls{bd}. + +\subsection{Le \gls{ml}} + +Ce concept regroupe les différentes nouvelles approches méthodologiques +permettant de faire ressortir une compréhension des \gls{bd}, en extraire +des \glspl{dataset} exploitables puis, à partir de cet apprentissage, +être en mesure de comprendre de nouvelles données. + +Les 2 défis à relever pour être pertinents dans cette démarche : +\begin{itmz} +\item{ne pas surentraîner (spécialiser) l’apprentisseur automatique\\ +pour conserver une capacité de généralisation} +\item{pour chaque type de problèmes à résoudre,\\ +choisir les algorithmes les plus pertinents} +\end{itmz} + +\subsection{Méthodes non supervisées} + +Ces premières méthodes permettent de travailler avec un ensemble d’éléments +ne disposant pas d’étiquetage préalable, elles mettent ainsi en place +des mécanismes permettant de faire du \gls{clustering} de ces éléments. + +Exemples d’algorithmes : +\begin{itmz} +\item{k-means} +\item{réduction de dimensionnalité} +\item{réseaux de neurones} +\item{analyse des composants principaux ou indépendants} +\item{modèles de distribution} +\item{classification hiérarchique} +\item{\gls{clustering} par décalage moyen} +\item{Apriori} +\end{itmz} + +\subsection{Méthodes semi-supervisées} + +Ces méthodes autorisent l’utilisation d’un ensemble d’éléments hétérogène, +certains étant ayant déjà été étiquetés au préalable, alors que d’autres non. +Un mélange de différentes techniques s’avère donc être nécessaire. + +Exemples d’algorithmes : +\begin{itmz} +\item{\gls{hbos}} +\item{forêts isolées} +\item{autoencodeurs} +\end{itmz} + +\subsection{Méthodes supervisées} + +Ces dernières méthodes utilisent un ensemble d’éléments intégralement étiquetés, +ayant une valeur de sortie pour plusieurs valeurs de variables en entrée. +Ces données d’apprentissage permettent après entraînement de pouvoir +prévoir des valeurs de sortie correctes à partir de nouvelles valeurs en entrée. + +Ces prédictions sont de 2 types : +\begin{itmz} +\item{régression → la valeur sortante est un nombre} +\item{classification → la valeur sortante est une catégorie} +\end{itmz} + +Exemples d’algorithmes : +\begin{itmz} +\item{régressions linéaire, logistique ou vectorielle} +\item{arbres de régression, classification} +\item{K-NN} +\item{classificateur Naïve Bayes} +\item{réseaux de neurones} +\item{\gls{svm}} +\end{itmz} + +Ce sont ces \gls{svm} qui feront l’objet d’étude du présent document. +Après en avoir abordé les différents principes sous-jacents, +une analyse critique sera proposée en se basant sur les avantages, +inconvénients et limitations de ce type d’algorithmes +dans le cadre d’un exemple d’application. \pagebreak