Régression Linéaire

in #fr6 years ago


640px-Linear_regression.svg.png
Source

Lorsque nous avons des données, nous cherchons à trouver un lien entre elle afin de pouvoir, par exemple, prévoir un évènement. Par exemple, si nous trouvons une corrélation entre le poids et la taille, on peut supposer qu'en fonction d'une taille, on puisse déterminer le poids d'une personne. Ce que nous allons chercher à montrer au sein de cet article est une manière d'établir une relation entre plusieurs données.

Régression Linéaire

Imaginons que nous avons un ensemble de points qui semble établir un lien, on aimerait pouvoir tracer une droite permettant de généraliser notre information.


points.png
Source Réré - Python librairie : matplotlib.pyplot
Nuage de points.

Cette droite s'exprime par l'équation :

y = ax + b

Ce que nous allons chercher, c'est le a et le b qui correspond au mieux à nos données. Pour ce faire, nous allons utiliser la méthode des moindres carrées. Cela consiste à minimiser la somme des carrés des écarts entre la valeur prédites et la valeur que nous avons. Ici, nous allons chercher à minimiser l'ensemble des segments coloriés en vert. Il est a noté que le point G a pour coordonnées la moyenne des xi et la moyenne de yi, respectivement pour sa coordonnée en x et en y.





Regression_lineaire_ordonnees.svg.png
Source
Exemple de Régression Linéaire

Ainsi, on sait que notre droite passera par le point G. Ainsi, nous allons avoir :


CodeCogsEqn(2).gif
CodeCogsEqn(3).gif

Afin de trouver b, il nous faut a. Dans la méthode des moindres carrées, nous allons utiliser la covariance et la variance. La covariance entre deux variables est un nombre permettant de quantifier leurs écarts conjoints par rapport à leurs espérances respectives. La variance est une mesure permettant de caractériser la dispersion d'un échantillon.
Ainsi, nous allons avoir :


CodeCogsEqn(4).gif

Une fois que l'on a déterminé a, il ne nous reste plus qu'a cherché b en remplaçant les éléments dans notre calcul précédent. Afin de visualiser cette droite, nous pouvons la tracer sur notre nuage de point.

droites.png
Source Réré - Python librairie : matplotlib.pyplot
Nuage de points approché par une regression linéaire.

Ainsi, nous avons une droite qui nous permet de résumer notre information. Nous avons aussi sur le point en rouge le point G. À partir de cette droite, on peut établir approché une valeur y en fonction d'un x donner. Bien entendu, nous avons ici pris très peu de points dans notre exemple. Cependant, si nous avons énormément de données et que notre droite s'adapte bien à nos données, nous pouvons réaliser cette approximation. Bien entendu, d'autres méthodes existe afin d'approché par une droite un nuage de point, nous avons réaliser dans cet article qu'une introduction.

Pour résumé, nous avons à notre disposition un nuage de points. À partir de cela, on peut se rendre compte que ces nuages de points semble avoir un lien entre eux. Ainsi, afin de regrouper cette information, nous allons approcher ces données par une droite. Pour cela, nous utilisons une régression linéaire en utilisant la méthode des moindres carrées. À partir de cette droite, si nous avons un x, on peut déterminer une valeur approchée de y. Ce type de méthode peut nous servir, par exemple, afin de déterminer l'évolution des données dans le futur ou bien d'obtenir une valeur approchée en fonction d'une donnée.

Je ne sais pas si une application avec de réelles données à l'aide de python peut vous intéressez ? N'hésitez pas à me le faire savoir en commentaire.

Source :

Sort:  

intéressant! sa fait plaisir de lire des articles de ce genre ici

Merci, je suis content que ça te plaise =)

Coin Marketplace

STEEM 0.35
TRX 0.12
JST 0.040
BTC 70638.80
ETH 3565.34
USDT 1.00
SBD 4.73