Как убрать выбросы в excel

Содержание:

  1. Что такое выбросы и почему их важно найти?
  2. Найдите выбросы путем сортировки данных
  3. Поиск выбросов с помощью квартильных функций
  4. Поиск выбросов с помощью функций НАИБОЛЬШИЙ / МАЛЕНЬКИЙ
  5. Как правильно обращаться с выбросами
  6. Удалить выбросы
  7. Нормализовать выбросы (отрегулировать значение)

При работе с данными в Excel у вас часто возникают проблемы с обработкой выбросов в наборе данных.

Выбросы довольно часто встречаются во всех видах данных, и важно идентифицировать и обрабатывать эти выбросы, чтобы убедиться, что ваш анализ правильный и значимый.

В этом уроке я покажу вам как найти выбросы в Excel, а также некоторые методы, которые я использовал в своей работе для обработки этих выбросов.

Что такое выбросы и почему их важно найти?

Выброс — это точка данных, которая выходит за рамки других точек данных в наборе данных. Если у вас есть выброс в данных, это может исказить ваши данные, что может привести к неверным выводам.

Приведу простой пример.

Допустим, 30 человек едут на автобусе из пункта назначения A в пункт назначения B. Все люди относятся к одной весовой группе и группе доходов. Для целей этого руководства давайте предположим, что средний вес составляет 220 фунтов, а средний годовой доход — 70 000 долларов.

Сейчас где-то посередине нашего маршрута автобус останавливается, и в него садится Билл Гейтс.

Как вы думаете, как это повлияет на средний вес и средний доход людей в автобусе?

Хотя средний вес вряд ли сильно изменится, средний доход пассажиров автобуса резко вырастет.

Это связано с тем, что доход Билла Гейтса является исключением в нашей группе, и это дает нам неправильную интерпретацию данных. Средний доход каждого пассажира автобуса составит несколько миллиардов долларов, что намного превышает реальную стоимость.

При работе с фактическими наборами данных в Excel вы можете иметь выбросы в любом направлении (например, положительный выброс или отрицательный выброс).

И чтобы убедиться, что ваш анализ верен, вам нужно каким-то образом идентифицировать эти выбросы, а затем решить, как лучше всего их лечить.

Теперь давайте рассмотрим несколько способов найти выбросы в Excel.

Найдите выбросы путем сортировки данных

С небольшими наборами данных быстрый способ определить выбросы — просто отсортировать данные и вручную просмотреть некоторые значения в верхней части отсортированных данных.

А так как выбросы могут быть в обоих направлениях, убедитесь, что вы сначала отсортировали данные в порядке возрастания, а затем в порядке убывания, а затем перебрали самые верхние значения.

Позвольте мне показать вам пример.

Ниже у меня есть набор данных, в котором у меня есть продолжительность звонков (в секундах) для 15 звонков в службу поддержки.

Ниже приведены шаги по сортировке этих данных, чтобы мы могли идентифицировать выбросы в наборе данных:

  1. Выберите заголовок столбца, который вы хотите отсортировать (в этом примере ячейка B1).
  2. Перейдите на вкладку «Главная«
  3. В группе «Редактирование» щелкните значок «Сортировка и фильтр».
  4. Щелкните Custom Sort (Пользовательская сортировка).
  5. В диалоговом окне «Сортировка» выберите «Продолжительность» в раскрывающемся списке «Сортировка по» и «От наибольшего к наименьшему» в раскрывающемся списке «Порядок». 
  6. Нажмите ОК

Вышеупомянутые шаги сортируют столбец продолжительности звонка с наивысшими значениями вверху. Теперь вы можете вручную просмотреть данные и посмотреть, есть ли выбросы.

В нашем примере я вижу, что первые два значения намного выше остальных значений (а два нижних намного ниже).

Примечание. Этот метод работает с небольшими наборами данных, где вы можете вручную сканировать данные. Это не научный метод, но он хорошо работает

Поиск выбросов с помощью квартильных функций

Теперь давайте поговорим о более научном решении, которое поможет вам определить, есть ли какие-то выбросы.

В статистике квартиль составляет четверть набора данных. Например, если у вас есть 12 точек данных, то первый квартиль будет тремя нижними точками данных, второй квартиль будет следующими тремя точками данных и так далее.

Ниже приведен набор данных, по которому я хочу найти выбросы. Для этого мне нужно будет вычислить 1-й и 3-й квартили, а затем с его помощью вычислить верхний и нижний предел.

Ниже приведена формула для вычисления первого квартиля в ячейке E2:
= QUARTILE.INC ($ B $ 2: $ B $ 15,1)

и вот тот, который вычисляет третий квартиль в ячейке E3:
= QUARTILE.INC ($ B $ 2: $ B $ 15,3)

Теперь я могу использовать два вышеупомянутых вычисления, чтобы получить межквартильный размах (который составляет 50% наших данных в пределах 1-го и 3-го квартилей).
= F3-F2

Теперь мы будем использовать межквартильный диапазон, чтобы найти нижний и верхний предел, который будет содержать большую часть наших данных.

Все, что выходит за эти нижние и верхние пределы, будет считаться выбросом.

Ниже приведена формула для расчета нижнего предела:
= Квартиль1 - 1,5 * (Межквартильный диапазон)
который в нашем примере становится:
= F2-1,5 * F4

И формула для расчета верхнего предела:
= Квартиль3 + 1,5 * (Межквартильный диапазон)
который в нашем примере становится:
= F3 + 1,5 * F4

Теперь, когда у нас есть верхний и нижний предел в нашем наборе данных, мы можем вернуться к исходным данным и быстро определить те значения, которые не лежат в этом диапазоне.

Быстрый способ сделать это — проверить каждое значение и вернуть ИСТИНА или ЛОЖЬ в новом столбце.

Я использовал приведенную ниже формулу ИЛИ, чтобы получить ИСТИНА для тех значений, которые являются выбросами.
= ИЛИ (B2 $ F $ 6)

Теперь вы можете фильтровать столбец Outlier и отображать только те записи, для которых значение TRUE.

Кроме того, вы также можете использовать условное форматирование, чтобы выделить все ячейки, в которых значение TRUE.

Примечание: Хотя это более распространенный метод поиска выбросов в статистике. Я считаю, что этот метод немного непригоден для использования в реальных сценариях. В приведенном выше примере нижний предел, рассчитанный по формуле, равен -103, в то время как набор данных, который у нас есть, может быть только положительным. Таким образом, этот метод может помочь нам найти выбросы в одном направлении (высокие значения), он бесполезен при выявлении выбросов в другом направлении.

Поиск выбросов с помощью функций НАИБОЛЬШИЙ / МАЛЕНЬКИЙ

Если вы работаете с большим количеством данных (значения в нескольких столбцах), вы можете извлечь 5 или 7 наибольших и наименьших значений и посмотреть, есть ли в них выбросы.

Если есть какие-либо выбросы, вы сможете их идентифицировать, не просматривая все данные в обоих направлениях.

Предположим, у нас есть приведенный ниже набор данных, и мы хотим знать, есть ли какие-либо выбросы.

Ниже приведена формула, которая даст вам наибольшее значение в наборе данных:
= БОЛЬШОЙ ($ B $ 2: $ B $ 16,1)
Точно так же второе по величине значение будет равно
= БОЛЬШОЙ ($ B $ 2: $ B $ 16,1)
Если вы не используете Microsoft 365, в которой есть динамические массивы, вы можете использовать приведенную ниже формулу, и она даст вам пять наибольших значений из набора данных с помощью одной формулы:
= БОЛЬШОЙ ($ B $ 2: $ B $ 16; СТРОКА ($ 1: 5))

Точно так же, если вам нужны 5 наименьших значений, используйте следующую формулу:
= МАЛЕНЬКИЙ ($ B $ 2: $ B $ 16; СТРОКА ($ 1: 5))
или следующее, если у вас нет динамических массивов:
= МАЛЕНЬКИЙ ($ B $ 2: $ B $ 16,1)
Когда у вас есть эти значения, очень легко обнаружить любые выбросы в наборе данных.

Хотя я решил извлечь 5 наибольших и наименьших значений, вы можете выбрать 7 или 10 в зависимости от размера вашего набора данных.

Я не уверен, является ли это приемлемым методом для поиска выбросов в Excel или нет, но это метод, который я использовал, когда мне приходилось работать с большим количеством финансовых данных на моей работе несколько лет назад. По сравнению со всеми другими методами, описанными в этом руководстве, я считаю этот наиболее эффективным.

Как правильно обращаться с выбросами

До сих пор мы видели методы, которые помогут нам найти выбросы в нашем наборе данных. Но что делать, если вы знаете, что есть выбросы.

Вот несколько методов, которые вы можете использовать для обработки выбросов, чтобы ваш анализ данных был правильным.

Удалить выбросы

Самый простой способ удалить выбросы из набора данных — просто удалить их. Таким образом, это не исказит ваш анализ.

Это более жизнеспособное решение, когда у вас большие наборы данных и удаление пары выбросов не повлияет на общий анализ. И, конечно же, перед удалением данных обязательно создайте копию и выясните, что вызывает эти выбросы.

Нормализовать выбросы (отрегулировать значение)

Нормализация выбросов — это то, что я делал, когда работал полный рабочий день. Для всех значений выбросов я бы просто изменил их на значение, немного превышающее максимальное значение в наборе данных.

Это гарантирует, что я не удаляю данные, но в то же время не позволяю им искажать мои данные.

Чтобы дать вам реальный пример, если вы анализируете маржу чистой прибыли компаний, где большинство компаний находится в пределах от -10% до 30%, а есть несколько значений, превышающих 100%, я просто изменит эти выбросы на 30% или 35%.

Итак, вот некоторые из методов, которые вы можете использовать в Excel, чтобы найти выбросы.

После того, как вы определили выбросы, вы можете углубиться в данные и посмотреть, что их вызывает, и в то же время выбрать один из методов обработки этих выбросов (который может удалить их или нормализовать, изменив значение)

Надеюсь, вы нашли этот урок полезным.

В процессе анализ данных обычно прослеживается закономерность в том, что все значения колеблются возле определенного центрального уровня – медианы. Хотя очень часто некоторые из них выпадают далеко от центра. Такие значения называются статистическими выбросами (находятся далеко за прогнозируемым диапазоном). Статистические выбросы могут запачкать результаты статистического анализа, что может приводить к фальшивым или ошибочным выводам касающихся данных.

Как определить статистические выбросы и сделать выборку для их удаления в Excel

Для экспонирования и выделения цветом значений статистических выбросов от медианы можно использовать несколько простых формул и условное форматирование.

Первым шагом в поиске значений выбросов статистики является определение статистического центра диапазона данных. С этой целью необходимо сначала определить границы первого и третьего квартала. Определение границ квартала – значит разделение данных на 4 равные группы, которые содержат по 25% данных каждая. Группа, содержащая 25% наибольших значений, называется первым квартилем.

Границы квартилей в Excel можно легко определить с помощью простой функции КВАРТИЛЬ. Данная функция имеет 2 аргумента: диапазон данных и номер для получения желаемого квартиля.

В примере показанному на рисунке ниже значения в ячейках E1 и E2 содержат показатели первого и третьего квартиля данных в диапазоне ячеек B2:B19:

определить статистические выбросы.

Вычитая от значения первого квартиля третьего, можно определить набор 50% статистических данных, который называется межквартильным диапазоном. В ячейке E3 определен размер межквартильного диапазона.

В этом месте возникает вопрос, как сильно данное значение может отличаться от среднего значения 50% данных и оставаться все еще в пределах нормы? Статистические аналитики соглашаются с тем, что для определения нижней и верхней границы диапазона данных можно смело использовать коэффициент расширения 1,5 умножив на значение межквартильного диапазона. То есть:

  1. Нижняя граница диапазона данных равна: значение первого квартиля – межкваритльный диапазон * 1,5.
  2. Верхняя граница диапазона данных равна: значение третьего квартиля + расширенных диапазон * 1,5.

Как показано на рисунке ячейки E5 и E6 содержат вычисленные значения верхней и нижней границы диапазона данных. Каждое значение, которое больше верхней границы нормы или меньше нижней границы нормы считается значением статистического выброса.

Чтобы выделить цветом для улучшения визуального анализа данных можно создать простое правило для условного форматирования.



Выборка статистических выбросов с помощью квартилей в Excel

Чтобы создать правило для условного форматирования по выше описанным инструкциям, сделайте следующее:

  1. Выделите целевой диапазон ячеек (в данном примере B2:B19) и выберите инструмент «ГЛАВНАЯ»-«Условное форматирование»-«Создать правило». Появится окно «Создание правила форматирования ячеек», как показано ниже на рисунке:
  2. Создать правило.

  3. Из списка в верхней части окна выберите опцию «Использовать формулу для определения форматируемых ячеек». Данная опция служит для анализа значений в ячейках выделенного диапазона, с помощью определенной формулы с логическим выражением. Если в результате вычислений формулой, по какому-то из значений будет возвращено логическое значение ИСТИНА, тогда в этой ячейке будет применятся условное форматирование.
  4. В полю для введения формулы введите логическое выражение представленное на данном шаге. Обратите внимание на то, что в формуле используется относительная ссылка на целевую ячейку B2. А ссылки на верхнюю и нижнюю границу в ячейках $E$5 и $E$6 являются абсолютными. Два логических выражения помещены внутрь логической функции ИЛИ в качестве аргументов. Если значение целевой ячейки будет больше, чем верхняя граница или же меньше чем нижняя граница, тогда формула возвращает значение ИСТИНА и автоматически применяется условное форматирование.

    =ИЛИ(B2<$E$6;B2>$E$5)

  5. Нажмите на кнопку «Формат» и появится окно «Формат ячеек», в котором находятся все опции для форматирования шрифтов, границ и заливки ячеек. После указания необходимых опций форматирования подтвердите их нажатием на кнопку «ОК» на всех открытых окнах, чтобы получить готовый результат.

Формат ячеек.

В результате выделены цветом все ячейки, которые содержат значение статистического выброса от медианы.

  • Редакция Кодкампа

17 авг. 2022 г.
читать 2 мин


Существует два способа расчета среднего значения при исключении выбросов в Excel:

1. Рассчитайте среднее значение и используйте ОБРЕЗНОЕ СРЕДНЕЕ, чтобы исключить выбросы.

2. Рассчитайте среднее значение и используйте межквартильный диапазон, чтобы исключить выбросы.

Мы будем использовать следующий набор данных в Excel, чтобы проиллюстрировать, как использовать оба метода:

Метод 1: вычислить среднее значение и использовать ОБРЕЗНОЕ СРЕДНЕЕ для исключения выбросов

Функцию ТРИММЕАН в Excel можно использовать для вычисления среднего значения диапазона значений при исключении определенного процента наблюдений сверху и снизу набора данных.

Например, мы можем использовать следующую формулу для расчета среднего значения в столбце A, исключая в общей сложности 20% наблюдений (10% сверху и 10% снизу):

=TRIMMEAN( A2:A16 , 20%)

Поскольку у нас есть 15 значений в нашем наборе данных, 10% равны 1,5, что округляется до 1. Таким образом, эта формула будет вычислять среднее значение в диапазоне, исключая наименьшее значение и наибольшее значение:

Среднее значение с исключенными выбросами оказывается равным 58,30769 .

Метод 2: вычислить среднее значение и использовать межквартильный диапазон для исключения выбросов

Межквартильный размах (IQR) — это разница между 75-м процентилем (Q3) и 25-м процентилем (Q1) в наборе данных. Он измеряет разброс средних 50% значений.

Мы можем определить наблюдение как выброс, если оно в 1,5 раза превышает межквартильный размах, превышающий третий квартиль (Q3), или в 1,5 раза превышает межквартильный размах меньше, чем первый квартиль (Q1).

Мы можем использовать следующую формулу для расчета межквартильного диапазона для нашего набора данных в Excel:

=QUARTILE( A2:A16 ,3)-QUARTILE( A2:A16 ,1)

На следующем снимке экрана показано, как использовать эту формулу:

Затем мы можем использовать следующую формулу, чтобы использовать IQR для определения значений выбросов и присвоить «1» любому значению, которое является выбросом в наборе данных:

=QUARTILE( A2:A16 ,3)-QUARTILE( A2:A16 ,1)

На следующем снимке экрана показано, как использовать эту формулу:

Поиск выбросов в Excel

Мы видим, что только одно значение — 164 — оказывается выбросом в этом наборе данных.

Наконец, мы можем использовать следующую формулу для вычисления среднего значения всех значений в наборе данных, которые не являются выбросами:

=AVERAGEIF( B2:B16 , 0, A2:A16 )

На следующем снимке экрана показано, как использовать эту формулу:

Excel вычисляет среднее значение, исключая выбросы

Среднее значение с исключенными выбросами оказывается равным 55,42857 .

Дополнительные ресурсы

В следующих руководствах объясняется, как выполнять другие распространенные задачи в Excel:

Как рассчитать межквартильный диапазон (IQR) в Excel
Как рассчитать среднее по группе в Excel
Как рассчитать взвешенные скользящие средние в Excel

Как определить бюджет вакансии?

Для полноценного исследования рынка труда требуется владение методологией, но некоторые действия по сравнению бюджета вакансии с рыночными данными HR-специалисты могут выполнить самостоятельно

Представим, что у нас в компании открылась вакансия по новой позиции, и мы не знаем, сколько денег заложить в бюджет. Для этого возьмем выборку кандидатов и по их зарплатным ожиданиям определим среднее арифметическое (далее — «среднее») значение (Таблица 1).

Зарплатные ожидания считаем с помощью среднего значения. Для данной выборки оно составит 29 231 руб. Но кандидат под номером 11 с зарплатными ожиданиями 55 000 руб. выделяется среди других. Можем ли мы включать его в расчет?

Чтобы ответить на вопрос, нам нужно проверить, не является ли это значение отклонением в выборке или выбросом. Выбросы – это очень большие или очень маленькие значения в наборе данных.

Для расчета выбросов необходимо разделить набор данных на 4 равных отрезка или квартили.

Алгоритм расчета выбросов:

1. Определить первый (Q1) и третий (Q3) квартили. Для этого используем функцию Excel «=КВАРТИЛЬ.ВКЛ»:
— для расчета Q1 используем формулу КВАРТИЛЬ.ВКЛ (диапазон данных;1);
— для расчета Q3 – формулу КВАРТИЛЬ.ВКЛ (диапазон данных;3).

2. Рассчитаем межквартильный размах (МР). Формула: МР = Q3 – Q1.

3. Определяем нижнюю границу выброса. Формула: Q1 – (1,5 * МР)

4. Определяем верхнюю границу выброса. Формула: Q3 + (1,5 * МР)

5. Значения, выходящие за верхнюю и нижнюю границы, являются выбросами.

6. Удаляем выбросы из выборки и считаем среднее значение без их учета.

По алгоритму расчета выбросов рассчитаем пример на данных Таблицы 1:

1. С помощью функции «=КВАРТИЛЬ.ВКЛ» рассчитаем Q1 = 25 000 руб. и Q3 = 35 000 руб.

2. Рассчитаем МР = 35 000 — 25 000 = 10 000 руб.

3. Определим нижнюю границу выброса по формуле: 25 000 — 1,5 * 10 000 = 10 000 руб. У нас нет значений ниже 10 000 руб., следовательно, нижнего выброса нет.

4. Определим верхнюю границу выброса по формуле: 35 000 + 1,5 * 10 000 = 50 000 руб.
Так как в Таблице 1 есть кандидат с зарплатными ожиданиями выше 50 000 руб., значит, это значение является выбросом.

5. Убираем выброс и рассчитываем среднее значение — 27 083 руб.

Сравним получившиеся результаты с учетом и без учета выбросов. В начале статьи мы получили среднее значение — 29 231 руб., после удаления выбросов из выборки среднее значение составило 27 083 руб. Отклонение — 2 148 руб.Отклонения могли быть еще выше, если бы мы включили в выборку кандидатов с более высокими зарплатными ожиданиями. Включение в выборку кандидатов с низкими зарплатными ожиданиями может существенно занизить бюджет вакансии

Как выбросы влияют на расчет бюджета вакансии?

1) Наличие в выборке кандидатов с низкими зарплатными ожиданиями уменьшает шансы на быстрое и качественное закрытие вакансии.
2) Наличие в выборке кандидатов с высокими зарплатными ожиданиями увеличивает бюджет вакансии, тем самым повышая общие затраты на персонал.

HR-аналитика начинается не с изучения сложных прогнозных моделей или языка программирования, а с понимания, как использовать простые на первый взгляд показатели, такие как среднее значение, известное нам еще со школы.

Ввиду того, что это простой и знакомый всем инструмент, многие коллеги пренебрегают правилами его расчета и получают некорректный средний стаж, возраст, зарплату сотрудников в компании или зарплатные ожидания кандидатов на вакансию. И вследствие этого делают неверные выводы.

В следующий раз при расчете среднего значения вспомните эту статью и уберите выбросы из ваших данных.

Для облегчения расчетов выбросов вы можете использовать наш калькулятор.

Это лишь небольшой пример использования различных показателей. Чтобы научиться корректно применять и другие показатели в работе HR, приглашаем вас на онлайн-курс «HR-статистика».

На чтение 5 мин. Просмотров 4k. Опубликовано 21.06.2019

Содержание

  1. Быстрый пример
  2. Как найти выбросы в ваших данных
  3. Шаг первый: вычислите квартили
  4. Шаг второй: оценка межквартильного диапазона
  5. Шаг третий: вернуть нижнюю и верхнюю границы
  6. Шаг четвертый: выявить выбросы
  7. Игнорирование выбросов при расчете среднего значения


Выброс – это значение, которое значительно выше или ниже, чем большинство значений в ваших данных. При использовании Excel для анализа данных выбросы могут искажать результаты. Например, среднее значение набора данных может действительно отражать ваши значения. Excel предоставляет несколько полезных функций, которые помогут вам управлять своими выбросами, поэтому давайте взглянем.

Быстрый пример

На изображении ниже достаточно легко определить выбросы – значение двух, присвоенное Эрику, и значение 173, присвоенное Райану. В таком наборе данных достаточно легко определить и устранить эти выбросы вручную.

В большем наборе данных это не будет иметь место. Очень важно уметь определять выбросы и исключать их из статистических расчетов, и именно это мы и рассмотрим, как это сделать в этой статье.

Как найти выбросы в ваших данных

Чтобы найти выбросы в наборе данных, мы используем следующие шаги:

  1. Вычислите 1-й и 3-й квартили (мы немного поговорим о том, что это такое).
  2. Оцените межквартильный диапазон (мы также объясним это чуть ниже).
  3. Вернуть верхнюю и нижнюю границы нашего диапазона данных.
  4. Используйте эти границы для определения удаленных точек данных.

Диапазон ячеек справа от набора данных, показанного на рисунке ниже, будет использоваться для хранения этих значений.

Давайте начнем.

Шаг первый: вычислите квартили

Если вы разделите свои данные на кварталы, каждый из этих наборов называется квартилем. Самые низкие 25% чисел в диапазоне составляют 1-й квартиль, следующие 25% – 2-й квартиль и так далее. Сначала мы сделаем этот шаг, потому что наиболее широко используемое определение выброса – это точка данных, которая находится на расстоянии более 1,5 межквартильных диапазонов (IQR) ниже 1-го квартиля и 1,5 межквартильных диапазонов выше 3-го квартиля. Чтобы определить эти значения, мы сначала должны выяснить, что такое квартили.

Excel предоставляет функцию QUARTILE для расчета квартилей. Требуется две части информации: массив и кварт.

 = QUARTILE (массив, кварт) 

массив – это диапазон значений, которые вы оцениваете. И кварта – это число, представляющее квартиль, который вы хотите вернуть (например, 1 для 1-го квартиля, 2 для 2-го квартиля и т. Д.).

Примечание. В Excel 2010 Microsoft выпустила функции QUARTILE.INC и QUARTILE.EXC в качестве улучшений функции QUARTILE. QUARTILE более обратно совместим при работе с несколькими версиями Excel.

Давайте вернемся к нашему примеру таблицы.

Для вычисления 1-го квартиля мы можем использовать следующую формулу в ячейке F2.

 = КВАРТИЛЬ (В2: B14,1) 

При вводе формулы Excel предоставляет список параметров для аргумента кварта.

Чтобы вычислить третий квартиль, мы можем ввести формулу, аналогичную предыдущей, в ячейку F3, но используя три вместо одного.

 = КВАРТИЛЬ (В2: B14,3) 

Теперь у нас есть квартильные точки данных, отображаемые в ячейках.

Шаг второй: оценка межквартильного диапазона

Межквартильный диапазон (или IQR) – это средние 50% значений в ваших данных. Он рассчитывается как разница между значением 1-го квартиля и 3-го квартиля.

Мы собираемся использовать простую формулу в ячейке F4, которая вычитает 1-й квартиль из 3-го квартиля:

 = F3-F2 

Теперь мы можем видеть наш межквартильный диапазон.

Шаг третий: вернуть нижнюю и верхнюю границы

Нижние и верхние границы – это самые маленькие и самые большие значения диапазона данных, которые мы хотим использовать. Любые значения, меньшие или большие, чем эти связанные значения, являются выбросами.

Мы рассчитаем нижний предел границы в ячейке F5, умножив значение IQR на 1,5, а затем вычтя его из точки данных Q1:

 = F2- (1,5 * F4) 

Примечание . В этой формуле скобки не обязательны, так как часть умножения будет рассчитываться до части вычитания, но она облегчает чтение формулы.

Чтобы вычислить верхнюю границу в ячейке F6, мы снова умножим IQR на 1,5, но на этот раз добавим его в точку данных Q3:

 = F3 + (1,5 * F4) 

Шаг четвертый: выявить выбросы

Теперь, когда мы настроили все наши базовые данные, пришло время идентифицировать наши отдаленные точки данных – те, которые ниже, чем нижнее граничное значение, или выше, чем верхнее граничное значение.

Мы будем использовать функцию ИЛИ, чтобы выполнить этот логический тест и показать значения, которые соответствуют этим критериям, введя следующую формулу в ячейку C2:

 = ИЛИ (В2 $ F $ 6) 

Затем мы скопируем это значение в наши ячейки C3-C14. Значение TRUE указывает на выброс, и, как вы можете видеть, у нас есть два в наших данных.

Игнорирование выбросов при расчете среднего значения

Используя функцию QUARTILE, мы рассчитаем IQR и работаем с наиболее широко используемым определением выброса. Однако при расчете среднего значения для диапазона значений и игнорировании выбросов существует более быстрая и простая функция для использования. Этот метод не будет идентифицировать выброс как прежде, но он позволит нам быть гибкими с тем, что мы могли бы считать нашей частью выброса.

Функция, которая нам нужна, называется TRIMMEAN, и вы можете увидеть ее синтаксис ниже:

 = TRIMMEAN (массив, проценты) 

массив – это диапазон значений, которые вы хотите усреднить. процент – это процент точек данных, которые нужно исключить из верхней и нижней частей набора данных (вы можете ввести его в процентах или десятичном значении).

Мы ввели формулу ниже в ячейку D3 в нашем примере, чтобы вычислить среднее значение и исключить 20% выбросов.

 = TRIMMEAN (B2: B14, 20%) 

Там у вас есть две разные функции для обработки выбросов. Независимо от того, хотите ли вы определить их для каких-либо потребностей в отчетности или исключить их из вычислений, таких как средние значения, в Excel есть функция, отвечающая вашим потребностям.

Outliers as the name suggest are something that doesn’t fall in the required/given range. Outliers in statistics need to be removed because they affect the decision that is to be made after performing the required calculations. Outliers generally make the decision skewed i.e they move the decision in a positive or negative direction. Sometimes it is easy to find an outlier by looking at the data but it is difficult to find an outlier when the data is large. We’ll see this with the help of an example, given a dataset and you need to perform the average of the dataset 1, 89, 57, 100, 150, 139, 49, 87, 200, 250. So, the average of the given data set is 112.2. But, it is clearly visible that 1, 200, and 250 are ranges that are too small or too large to be a part of the dataset. These ranges are known as outliers in data. After removing the outliers, the average becomes 95.85. It is evidently seen from the above example that an outlier will make decisions based.

Finding Outliers using Sorting in Excel

This is one of the easiest ways to find outliers in MS excel when your data is not huge because by having a look at the data you’ll get to know about the values that are far away from the originally recorded values.

Unsorted-Data

From the above image, we can clearly tell that the data is not sorted and hence it would take some time for us to identify outliers.

Sorted-data

While looking at Img. 2, we can clearly say that the numbers 1, 200, and 250 are outliers. 

Finding Outliers using LARGE/SMALL Excel Function

Another way to find outlier is by using built-in MS Excel functions known as LARGE and SMALL. The LARGE function will return the largest value from the array of data and the SMALL function will return the smallest value. Here, we will be using a LARGE and SMALL function which is an in-built function in Microsoft excel. Consider the example used above:

Large-and-small-example

LARGE Function Syntax:

LARGE($B$1:$B$12, 1)

Here, we are passing an array and a number. The array has the dataset for which we have to find the outlier and the number, 1, represents the first largest number from the array. If we use 2, it will return the second largest value from the array. Now when we use this function in the above example, we will get the following output:

Large-function-output

SMALL Function Syntax:

SMALL($B$1:$B$12, 1)

The syntax and pass-on value are the same. Now when we use this function in the above example, we will get the following output:

Small-function-output

Note: If there are multiple outliers in the data then you have to use the function again and again.

Finding Outliers using Inter Quartile Range(IQR)

The data presented in the above example has a small sample size but when it comes to a real-life situation, the data can be huge, and that’s where the original problem arrives. As per IQR, An outlier is any point of data that lies over 1.5 times IQRs below the first quartile (Q1) and 1.5 times IQR above the third quartile (Q3)in a data set.

Formula is

High = Q3 + 1.5 * IQR

Low = Q1 – 1.5 * IQR

Finding Outliers using the following steps:

Step 1: Open the worksheet where the data to find outlier is stored. 

Step 2: Add the function QUARTILE(array, quart), where an array is the data set for which the quartile is being calculated and a quart is the quartile number. In our case, the quart is 1 because we wish to calculate the 1st quartile to calculate the lowest outlier.

Quartile-1

Quart Number Quartile Returns
0 Minimum Value
1 First quartile(25th percentile)
2 Median Value(50th percentile)
3 Third Quartile(75th percentile)
4 Maximum Value

Step 3: Similar to step 2 add the quartile formula under Q3 and write 3 as quart number because we wish to calculate the 3rd quartile i.e 75th percentile to calculate the highest quartile value.

Step 4: Inter Quartile Range or IQR is Q3-Q1, put the formula to get the IQR value.

IQR

Step 5: To find the High value, the formula is Q3+(1.5*IQR). Similarly, for Low value, the formula is Q1-(1.5*IQR)

High-and-Low-quartile

Step 6: To find whether the number in the data set is an outlier or not, we need to check whether the data entry is higher than the High value or lower than the Low value. To perform this we will use the OR function. The formula will be OR(B3>$G$3, B3<$H$3). Put the formula in the required cell and drag down the cell adjacent to the last data set, if the value returns TRUE, then the data is an outlier otherwise not.

Checking-whether-the-number-in-the-data-set-is-an-outlier-or-not

Since you’ve checked for the outlier data. Now you can remove the outliers and use the rest data for calculations and get unbiased results.

 

davi souza

Пользователь

Сообщений: 1
Регистрация: 21.11.2021

Я постараюсь пройти через все, что случится и что мне понадобится.
1 ° Зеленая таблица — это количество выбросов, основанное на статистических расчетах, взятых из другой электронной таблицы (здесь не для дидактики).
они будут обновляться по мере добавления новых данных, поэтому я не собирал данные из синей таблицы вместе, поскольку они будут добавляться постепенно по мере того, как я удаляю одни и добавляю другие.

 2 ° Синий стол — моя тренировочная база. В любой момент будут команды, у которых будет синяя таблица, а не зеленая, правильно, так и должно быть.
 Добавлю данные, что внизу.

3 ° в определенный момент команды в зеленой таблице изменятся, поэтому мне нужно все динамическое.

 Теперь что мне нужно

будут конфликты там, где цель находится в таблице выбросов. Поскольку данных много, мне нужно посмотреть, в каких из этих игр есть этот выброс, поскольку в настоящее время у них есть 190 игр, но в конечном итоге их будет 380.
Команды, которые не отображаются в зеленой таблице, могут считаться не выбывшими, потому что в какой-то момент они появятся, поэтому мне нужно что-то, что заставляет его отображаться в столбце сбоку (пример: true для удаления и false, чтобы не удалять) будут свои выбросы или нет.

Мне нужна формула для непрерывного выполнения 380 строк, потому что это будет максимальное количество строк, которое я буду анализировать.

Я думаю, это все объяснено, если вы не дадите мне знать, я найду способ объяснить это лучше

Спасибо

Изменено: davzinho22.11.2021 01:00:18

Понравилась статья? Поделить с друзьями:

А вот еще интересные статьи:

  • Как убрать границы страницы в word
  • Как убрать границы в word документе
  • Как убрать выборку в excel
  • Как убрать границы при печати в excel
  • Как убрать границу в excel 2007

  • 0 0 голоса
    Рейтинг статьи
    Подписаться
    Уведомить о
    guest

    0 комментариев
    Старые
    Новые Популярные
    Межтекстовые Отзывы
    Посмотреть все комментарии