На 30м году жизни я кажется наконец понял что такое метод максимального правдоподобия и почему веса выбирают w_i=1/sigma_i^2.
Предположим мы ЗНАЕМ функцию распределеоения вероятности получить какое-то наблюдение. (Т.е. на практике предполагаем что это Гаусс.)
Тогда вероятность получить данный ряд из N измерений это произведение вероятности получить первое измерение (формула Гаусса) на вероятность получить второе измерение (формула Гаусса) на вероятность получить третье измерение (...) и т.д. Это и есть "функция правдоподобия".
Мы _предполагаем_, что наблюдавшийся исход измерений и был самым вероятным. Тогда при каких значениях параметров функции распределения (рассмотрим среднее у гаусианки для примера, один параметр) у функции правдоподобия будет максимум? Дифференциируем её по параметру (мю) и приравниваем производную нулю.
Для простоты дифференциируем не саму функцию, а её логарифм. Получаем
сумма_по_i (x_i-мю)/(sigma_i^2) = 0
Т.е. выбор w_i=1/sigma_i^2 максимезирует вероятность получить наблюдаемый набор измерений с их ошибками (x_i,sigma_i) в предположении что каждое наблюдение взято из гауссова распределения с одинаковым для всех средним (которое мы и оцениваем) и разными дисперсиями sigma_i^2 которые мы типа думаем что знаем.
Предположим мы ЗНАЕМ функцию распределеоения вероятности получить какое-то наблюдение. (Т.е. на практике предполагаем что это Гаусс.)
Тогда вероятность получить данный ряд из N измерений это произведение вероятности получить первое измерение (формула Гаусса) на вероятность получить второе измерение (формула Гаусса) на вероятность получить третье измерение (...) и т.д. Это и есть "функция правдоподобия".
Мы _предполагаем_, что наблюдавшийся исход измерений и был самым вероятным. Тогда при каких значениях параметров функции распределения (рассмотрим среднее у гаусианки для примера, один параметр) у функции правдоподобия будет максимум? Дифференциируем её по параметру (мю) и приравниваем производную нулю.
Для простоты дифференциируем не саму функцию, а её логарифм. Получаем
сумма_по_i (x_i-мю)/(sigma_i^2) = 0
Т.е. выбор w_i=1/sigma_i^2 максимезирует вероятность получить наблюдаемый набор измерений с их ошибками (x_i,sigma_i) в предположении что каждое наблюдение взято из гауссова распределения с одинаковым для всех средним (которое мы и оцениваем) и разными дисперсиями sigma_i^2 которые мы типа думаем что знаем.
At the age of 30, I seem to finally understand what the maximum likelihood method is and why the weights choose w_i = 1 / sigma_i ^ 2.
Suppose we KNOW the probability distribution function of getting some observation. (That is, in practice, we assume that this is Gauss.)
Then the probability of obtaining a given series of N measurements is the product of the probability of obtaining the first dimension (Gaussian formula) by the probability of obtaining the second dimension (Gaussian formula) by the probability of obtaining the third dimension (...), etc. This is the "likelihood function".
We _sume_ that the observed outcome of the measurements was the most probable. Then, at what values of the parameters of the distribution function (consider the mean of the Gaussian for an example, one parameter) will the likelihood function have a maximum? We differentiate it by the parameter (mu) and equate the derivative to zero.
For simplicity, we differentiate not the function itself, but its logarithm. We get
sum_by_i (x_i-mu) / (sigma_i ^ 2) = 0
Those. the choice of w_i = 1 / sigma_i ^ 2 maximizes the probability of obtaining the observed set of measurements with their errors (x_i, sigma_i) under the assumption that each observation is taken from a Gaussian distribution with the same mean for all (which we estimate) and different variances sigma_i ^ 2 which we like we think we know.
Suppose we KNOW the probability distribution function of getting some observation. (That is, in practice, we assume that this is Gauss.)
Then the probability of obtaining a given series of N measurements is the product of the probability of obtaining the first dimension (Gaussian formula) by the probability of obtaining the second dimension (Gaussian formula) by the probability of obtaining the third dimension (...), etc. This is the "likelihood function".
We _sume_ that the observed outcome of the measurements was the most probable. Then, at what values of the parameters of the distribution function (consider the mean of the Gaussian for an example, one parameter) will the likelihood function have a maximum? We differentiate it by the parameter (mu) and equate the derivative to zero.
For simplicity, we differentiate not the function itself, but its logarithm. We get
sum_by_i (x_i-mu) / (sigma_i ^ 2) = 0
Those. the choice of w_i = 1 / sigma_i ^ 2 maximizes the probability of obtaining the observed set of measurements with their errors (x_i, sigma_i) under the assumption that each observation is taken from a Gaussian distribution with the same mean for all (which we estimate) and different variances sigma_i ^ 2 which we like we think we know.
У записи 1 лайков,
0 репостов.
0 репостов.
Эту запись оставил(а) на своей стене Кирилл Соколовский