Что лучше УСН или ЕНВД для ИП, ООО?
Многие ИП и организации задаются вопросом: что выгоднее — вмененка или упрощенка? В этой статье мы рассмотрим плюсы и минусы УСН и ЕНВД.
Скидка 45% в ноябре: 7 590 р. вместо
Простое ведение бухгалтерии
Система сама рассчитает налоги и напомнит вам о сроках платежей и сдачи отчетов
Автоматический расчет зарплаты, отпускных и больничных
Техподдержка 24/7, подсказки внутри сервиса, справочно-правовая база
Отправка отчетности через интернет
Отчеты и КУДиР формируются автоматически по данным бухучета
Электронный документооборот и быстрая проверка контрагентов
Документы, сделки, аналитические отчеты, сверка по НДС
Вопрос о том, какая система выгоднее, с начала 2021 года отпадает сам собой. ЕНВД отменяют, поэтому организации смогут выбирать только между ОСНО и УСН. У предпринимателей выбор больше — ОСНО, УСН, патент и самозанятость. Выберите режим с минимальной налоговой нагрузкой с помощью нашего бесплатного калькулятора. Если вы собираетесь переходить с ЕНВД на другой налоговый режим, прочитайте нашу статью — мы собрали в ней ответы на самые популярные вопросы по системам налогообложения. Не нашли ответа на свой вопрос? Задайте его в комментариях, обязательно ответим.
Общие черты УСН и ЕНВД
Упрощенка — специальный налоговый режим, при котором организация или ИП ведут упрощенный учет и освобождаются от ряда налогов: на имущество и прибыль, НДС (кроме импорта) и НДФЛ (для ИП без сотрудников). УСН можно применять при особых условиях, о которых мы уже писали. На упрощенке необходимо выбрать объект налогообложения: “Доходы” или “Доходы минус расходы”, — о критериях выбора мы также рассказывали в статье.
ЕНВД — также является спецрежимом, который освобождает бизнес от ряда налогов и подходит для определенных видов деятельности. Их перечень дан в ст. 346.26 НК РФ. Например: бытовые услуги, розничная торговля, грузоперевозки и пассажироперевозки. Решение о применении этого спецрежима принимают регионы. При ЕНВД налог берется с вмененного (т.е., предполагаемого) дохода, а реальная прибыль не влияет на размер налога.
Сходство между двумя спецрежимами заключается в следующем:
- УСН или ЕНВД выбирается добровольно.
- Оба спецрежима можно применять при численности сотрудников менее ста и участии других организаций менее 25%.
- Оба режима освобождают от уплаты налога на прибыль, НДС, налога на имущество. Исключения для УСН перечислены в ст. 346.11 НК РФ, для ЕНВД — в ст. 346.26 НК РФ.
- ИП без сотрудников не платят НДФЛ (кроме дивидендов, выигрышей и некоторых других доходов).
- Организации и ИП с работниками платят НДФЛ с зарплаты сотрудникам, страховые взносы, налог на транспорт, воду и землю, пошлины и акцизы — уплата и отчетность по ним происходит в общем порядке.
- Авансовые платежи по УСН и уплата налога по ЕНВД производится ежеквартально, в течение 25 дней после завершения квартала.
- Бухотчетность сдается в упрощенном виде.
- При ЕНВД и УСН “Доходы” можно сделать налоговый вычет на сумму уплаченных страховых взносов за сотрудников, уменьшив налог до 50%. (При УСН “Доходы минус расходы” уплаченные взносы попадают в расходы и тоже уменьшают налоговую базу).
- Если предприятие выходит за пределы критериев, которые назначены для спецрежима, оно переходит на ОСНО с начала того квартала, в котором возникло нарушение.
Отличия между УСН и ЕНВД
УСН | ЕНВД |
---|---|
При УСН налог зависит от величины доходов или от разницы между доходами и расходами. Регионы имеют право снижать налоговую ставку. Налог на УСН “Доходы” платится только в том случае, если у предприятия были доходы. Налог на УСН “Доходы минус расходы” уплачивается всегда, даже при убытке, и тогда он составляет 1% от выручки предприятия. | При ЕНВД налог уплачивается в любом случае, вне зависимости от прибыльности предприятия, и является фиксированной величиной. Налоговая ставка составляет 15%, а база для исчисления налога зависит от вмененной доходности вида деятельности и коэффициентов, которые устанавливают федеральные и муниципальные органы власти. Поэтому налог на ЕНВД нужно платить, даже если предприятие работало в убыток. |
На упрощенке использовать контрольно-кассовую технику придется в большинстве случаев. | На вмененке при продаже товаров и оказании услуг населению чаще всего достаточно выдать товарный чек или бланк строгой отчетности. Уточняйте требования для вашего вида деятельности. |
При УСН налоговым периодом является календарный год, декларация сдается раз в год до 31 марта (организации) или до 30 апреля (ИП). Но авансовые платежи по налогу делаются раз в квартал в течение 25 дней после завершения квартала. | При ЕНВД налоговый период — квартал, налог уплачивается в течение 25 дней, а декларация подается в течение 20 дней после завершения отчетного квартала. |
УСН можно начать применять с начала календарного года. | Применять ЕНВД или отказаться от него можно в любом месяце. |
Когда выгоднее применять УСН или ЕНВД?
Применять ЕНВД выгодно, когда бизнес приносит гораздо больший доход, чем установленный вмененный доход по данному виду деятельности. Тогда предприятие будет платить меньший налог, чем оно уплатило бы на УСН.
Если же бизнес приносит доход приблизительно равный или меньший, чем вмененный доход, то выгоднее применять УСН. Важно только разобраться, какой объект налогообложения лучше подойдет вашему предприятию. Мы уже писали, какой вид УСН стоит выбрать в зависимости от условий работы компании.
Но, конечно, выгоду применения УСН или ЕНВД нужно внимательно оценивать и просчитывать на основе реальных показателей деятельности предприятия, с учетом всех условий, в которых она ведется: наличие сотрудников, налоговая ставка в регионе и т. д. Если бизнес ведет несколько направлений деятельности, то по одним направлениям он может применять УСН, а по другим ЕНВД.
Онлайн-сервис Контур.Бухгалтерия поможет вам легко рассчитать все налоги. Если вы не можете определиться самостоятельно, то доверьте учет профессиональному бухгалтеру
Найти бухгалтера
Вам будут интересны статьи по теме «ЕНВД»ЕНВД для ИП в 2021 году: какие нас ждут изменения
ЕНВД (как система налогообложения) прекращает свое существование с 1 января 2021 года. Основание – Федеральный закон от 02.06.2016 № 178-ФЗ.
Почему наши законодатели решили «убрать» удобный и всеми полюбившийся спецрежим? Причиной такого решения названо уклонение от уплаты налогов с помощью этого специального налогового режима. Ведь исчисленный налог при ЕНВД не зависит от реальной выручки и часто используется при дроблении бизнеса.
Не секрет, что «вмененка» часто используется в схемах дробления бизнеса. Ведь ЕНВД в ряде ситуаций может быть очень выгоден – размер единого налога не зависит от реальных поступлений. Сумма налога зависит только от так вмененного дохода. Тем более, что с 1 июля 2019 года практически все налогоплательщики стали применять онлайн кассы и теперь вся выручка под контролем у государства.
Ожидается ли продление ЕНВД?
На рассмотрение в Госдуму 7 августа поступил законопроект № 1003319-7 «О внесении изменения в статью 5 Федерального закона «О внесении изменений в часть первую и часть вторую Налогового кодекса Российской Федерации и статью 26 Федерального закона «О банках и банковской деятельности».
Как отмечают авторы проекта, продление ЕНВД позволит не только оказать реальную поддержку малому бизнесу в нынешних экономических условиях на фоне ухудшения ситуации в связи с распространением новой коронавирусной инфекции, но и сохранить занятость населения, стабильный источник налоговых доходов бюджетов муниципалитетов, обеспечить плавный безболезненный переход к альтернативным режимам налогообложения, в конечном итоге поможет выполнению запланированных показателей национального проекта «Малое и среднее предпринимательство и поддержка индивидуальной предпринимательской инициативы» к 2024 году.
Но пока продлять ЕНВД для ИП в 2021 году власти не намерены.
Что сделать, чтобы «уйти» с ЕНВД?
Стоит обратить внимание на следующее – если ИП или организация, которые сейчас работают на ЕНВД, ничего не будут предпринимать до 1 января 2021 года, то с даты отмены «вмененки» они автоматически перейдут на ОСНО (общепринятую систему налогообложения). А такая «общая» система не всем выгодна.
Есть еще два варианта – переход на патент и переход на УСН.
ЕНВД: что делать и какую систему налогообложения выбрать
Единый налог на вменённый доход – это льготная система налогообложения для налогоплательщиков, которые осуществляют определенные виды деятельности. До её отмены осталось чуть больше месяца – она действует в России до конца 2020 года. С 1 января 2021 года вменёнка официально прекратит своё существование.
ЕНВД могли использовать (и пока что продолжают использовать) организации и ИП, которые занимаются видами деятельности из п. 3 ст. 346.29 НК РФ. Это оказание различных услуг и розничная торговля. Удобство ЕНВД – в том, что сумма налога фиксирована, она не зависит от выручки.
ЕНВД уплачивается на основании показателей, установленных в зависимости от вида деятельности: при торговле это площадь торговой точки, при оказании услуг — численность сотрудников.
Причина отмены ЕНВД
Отмена ЕНВД планировалась давно, с 2018 года. В 2020 году часть налогоплательщиков уже потеряла право применять ЕНВД из-за введения маркировки товаров (изделий из меха, обуви и лекарств). Окончательное решение об отмене вменённого налога было принято государством в связи развитием кассовой реформы, прошедшей уже несколько этапов в России. Благодаря онлайн-ККТ, контролировать выручку малого бизнеса стало гораздо проще.
Кого коснётся отмена ЕНВД
С 1 января 2021 года право применять ЕНВД утратят абсолютно все российские налогоплательщики на этом режиме – вне зависимости от региона и сферы деятельности. Утрата права применения касается всех: как организаций, так и индивидуальных предпринимателей.
Что нужно сделать до 2021 года
Заявление о прекращении применения ЕНВД подавать никуда не нужно. Самое главное, что сначала необходимо сделать – это определиться с системой налогообложения, выбрав один из спецрежимов (УСН/ПСН/НПД для самозанятых) или ОСН. Далее действия налогоплательщика зависят от выбранного режима.
При выборе УСН до 31 декабря 2020 года нужно подать уведомление по специальной форме о переходе на другой режим в налоговый орган – по месту нахождения организации / по месту жительства ИП.
При выборе ПСН нужно отправить заявление по установленной форме на получение патента – не позднее, чем за 10 дней до начала применения ПСН, но не позднее 17 декабря 2020 года. Это заявление можно подать в любой территориальный налоговый орган.
Отправить уведомление или заявление можно четырьмя способами:
— Путём личного визита в налоговый орган;
— Через личный кабинет налогоплательщика;
— По телекоммуникационным каналам связи – через оператора ЭДО;
— Почтовым отправлением с описью вложения.
При выборе НПД для самозанятых налогоплательщик должен зарегистрироваться в мобильном приложении или веб-кабинете «Мой налог».
При выборе общей системы налогообложения (ОСН) ничего подавать не нужно. Налогоплательщики на ЕНВД, не выбравшие до 31 декабря иной режим налогообложения, и не отправившие уведомление или заявление о переходе на него, автоматически будут переведены на ОСН. А это означает, что придётся платить налог на прибыль (организации) или НДФЛ (ИП), НДС и, при необходимости, другие региональные налоги. То есть не только повысится налоговая нагрузка, но и увеличится количество отчётов, которые надо будет сдавать в госорганы.
Поэтому рекомендуем ответственно подойти к выбору режима и успеть подать заявление заблаговременно. Чтобы помочь представителям бизнеса определиться, эксперты оператора ЭДО Такском подготовили сравнительные таблицы по всем режимам, на которые можно перейти плательщикам ЕНВД.
Налоговые режимы для ИП
У ИП больше вариантов режимов налогообложения, на которые они могут перейти, чем у организаций. Это ОСН и четыре спецрежима. Рассмотрим их особенности.
Налоговые режимы для организаций
У организаций вариантов перехода остаётся всего три: 2 спецрежима и ОСН. ПСН и НПД организации не могут использовать в принципе.
Итак, как видно из сравнительных таблиц, вариантов для перехода остаётся не так много. При выборе нового режима налогообложения стоит отталкиваться, в первую очередь, от ограничений – проходит ли ИП/организация по ним для применения режима. Из оставшихся вариантов уже можно выбирать по ставке налога и объёму сдаваемой отчётности.
Кстати, сама ФНС также разработала сервис для помощи налогоплательщикам с выбором налогового режима.
Отправка заявления о переходе на другой режим в электронном виде
В решениях компании Такском уже реализована возможность отправки уведомлений (заявлений) о переходе на другой режим НО. Организации и ИП, которые сдают отчётность через сервисы Такском, могут направить такие уведомления (заявления) по установленной форме, подписав электронной подписью. Подтвердить свой выбор новой системы НО электронно – самый надёжный способ. Передача документа в ФНС произойдёт мгновенно, при этом документ не потеряется.
Для тех, кто пока только определяется с оператором по сдаче отчётности, Такском предлагает удобные сервисы и выгодные тарифы. Для сдачи отчётности у компании Такском есть три варианта решений.
Первый – это веб-кабинет «Онлайн-Спринтер», который работает через браузер. Для сдачи отчётности нужен лишь компьютер и доступ в интернет. Сервис обладает интуитивно-понятным интерфейсом и не требует установки дополнительного ПО на ПК. Данные и документы хранятся в защищённом облачном архиве оператора.
Второй вариант для сдачи отчётности – это ПО «Доклайнер», устанавливаемое на ПК пользователя. В этом случае документы хранятся на компьютере пользователя.
В обоих продуктах предусмотрен многопользовательский режим для одновременной работы нескольких сотрудников с возможностью ограничения прав пользования.
Ну и, для тех, кто привык к работе в учётной системе 1С и не планирует устанавливать дополнительных программ, Такском предлагает сдавать отчётность из самой 1С. «1С:Электронная отчётность» работает из большинства конфигураций семейства «1С:Предприятие» версий 8.2 и выше.
Во всех сервисах Такском есть все актуальные формы отчётов для сдачи отчётности на любых режимах налогообложения.
При переходе с ЕНВД на любой другой режим необходимо перенастроить кассовые аппараты, чтобы в кассовых чеках отображался новый налоговый режим. Сделать это необходимо до начала использования кассы в 2021 году. Перерегистрировать кассу в ИФНС не нужно.
Если вы используете фискальные накопители (ФН) со сроком 36 месяцев, то в некоторых случаях вам может понадобиться замена ФН и перерегистрация кассы.
Нужна помощь в перенастройке касс или консультация по фискальным накопителям? Обращайтесь в Центр технического обслуживания компании Такском:
— в Москве и МО: 8 (495) 730-73-43;
— в регионах (звонок бесплатный): 8 (800) 250-11-54
С действующими акциями вы можете познакомиться на нашем сайте.
Отправить
Запинить
Твитнуть
Поделиться
Поделиться
Для ИП подготовят комфортный переход с ЕНВД на патентную систему
Предложенные правительством поправки в Налоговый кодекс должны привести виды предпринимательской деятельности, в отношении которых применяется патентная система налогообложения (ПСН), в соответствие Общероссийскому классификатору видов экономической деятельности (ОКВЭД).
Кроме того, расширяется перечень видов деятельности за счет включения в него тех видов, по которым сейчас применяется единый налог на вмененный доход (ЕНВД). Например, наружная реклама, размещение рекламы на транспорте, аренда автостоянок и другие.
В этом сюжетеНалогоплательщики смогут уменьшать сумму налога по ПСН на уплаченные страховые взносы по аналогии с ЕНВД, который прекратит действовать с 1 января 2021 года.
«Это позволит обеспечить максимально комфортный переход индивидуальных предпринимателей с системы налогообложения в виде ЕНВД на ПСН. Самое важное для нас – создать условия, чтобы этот переход не привел к увеличению налоговой нагрузки для ИП», – отметил замминистра финансов Алексей Сазанов.
В этих же целях для розницы и общепита, применяющих патентную систему налогообложения, предусмотрено увеличение в три раза площади торговых залов и залов обслуживания посетителей общественного питания – с 50 до 150 кв. м. При этом регионам предоставляются права на снижение размера таких ограничений, следует из пояснительной записки.
Индивидуальные предприниматели, у которых есть наемные работники, смогут уменьшать стоимость патента не более чем на 50%. Для ИП без наемных работников такого ограничения нет, то есть сумму уплачиваемого налога можно сократить до нуля, если это позволяет сумма уплаченных взносов.
Законопроект подготовлен в соответствии с планом мероприятий «Трансформация делового климата».
Законопроект № 973160-7 «О внесении изменений в статьи 346–43 и 346–51 части второй Налогового кодекса Российской Федерации (в части регулирования отдельных положений патентной системы налогообложения)».
Путин подписал закон, создающий стимулы для перехода ИП на патенты
https://ria.ru/20201123/putin-1585900642.html
Путин подписал закон, создающий стимулы для перехода ИП на патенты
Путин подписал закон, создающий стимулы для перехода ИП на патенты — РИА Новости, 23.11.2020
Путин подписал закон, создающий стимулы для перехода ИП на патенты
Президент России Владимир Путин подписал закон, который направлен на стимулирование использования индивидуальными предпринимателями патентной системы… РИА Новости, 23.11.2020
2020-11-23T13:45
2020-11-23T13:45
2020-11-23T13:45
экономика
владимир путин
/html/head/meta[@name=’og:title’]/@content
/html/head/meta[@name=’og:description’]/@content
https://cdn22.img.ria.ru/images/07e4/0b/14/1585483395_0:320:3072:2048_1920x0_80_0_0_d81070f7cf6f4f4b911a3281bf08687c.jpg
МОСКВА, 23 ноя — РИА Новости. Президент России Владимир Путин подписал закон, который направлен на стимулирование использования индивидуальными предпринимателями патентной системы налогообложения (ПСН) и одновременно расширяет полномочия регионов в этой сфере. Соответствующий документ опубликован на официальном интернет-портале правовой информации.Документ уточняет перечень видов предпринимательской деятельности, при которых возможно применение ПСН, а также содержит нормы, направленные на создание комфортных условий для индивидуальных предпринимателей, которые с 2021 года больше не смогут применять единый налог на вмененный доход (ЕНВД). При этом плательщикам ПСН предоставляется право уменьшать сумму налога на страховые платежи (взносы).Одновременно расширяются полномочия субъектов РФ, касающиеся применения ПСН. На региональный уровень передаются все вопросы, связанные с доходностью, ставками.При этом в Налоговом кодексе сохраняется перечень видов деятельности, для которых возможно применять ПСН. Так, патенты будут недоступны для тех, кто занимается оптовой торговлей или производит подакцизные товары, а также тем, кто ведет розничную торговлю и оказывает услуги общепита, располагая площадью залов более 150 квадратных метров. До этого, согласно НК, данный налоговый режим могли применять только при залах в 50 «квадратов» и меньше.На ПСН не смогут перейти и те, кто добывает и реализует полезные ископаемые, совершает сделки с ценными бумагами, оказывает кредитные и иные финансовые услуги, а также оказывает услуги по перевозке пассажиров и багажа, если у этого ИП более 20 транспортных средств.При переходе на общий режим налогообложения плательщики ЕНВД смогут получить вычет сумм НДС, предъявленных ранее при приобретении товаров, которые были ввезены на территорию страны, но не были использованы в деятельности на этом режиме. Плательщики ЕНВД смогут уменьшить суммы налога за последний налоговый период на сумму страховых взносов, уплаченных в 2021 году. А расходы в виде стоимости сырья и материалов, приобретенных в период применения ЕНВД, предприниматели смогут учесть в период применения упрощенной системы налогообложения.Закон должен вступить в силу через месяц после его официального опубликования, но не ранее первого числа очередного налогового периода по соответствующему налогу.
https://ria.ru/20201123/biznes-1585862291.html
https://ria.ru/20201027/dostavka-1581712065.html
РИА Новости
7 495 645-6601
ФГУП МИА «Россия сегодня»
https://xn--c1acbl2abdlkab1og.xn--p1ai/awards/
2020
РИА Новости
7 495 645-6601
ФГУП МИА «Россия сегодня»
https://xn--c1acbl2abdlkab1og.xn--p1ai/awards/
Новости
ru-RU
https://ria.ru/docs/about/copyright.html
https://xn--c1acbl2abdlkab1og.xn--p1ai/
РИА Новости
7 495 645-6601
ФГУП МИА «Россия сегодня»
https://xn--c1acbl2abdlkab1og.xn--p1ai/awards/
https://cdn22.img.ria.ru/images/07e4/0b/14/1585483395_165:0:2896:2048_1920x0_80_0_0_9302a71886f083e9967463437508c591.jpgРИА Новости
7 495 645-6601
ФГУП МИА «Россия сегодня»
https://xn--c1acbl2abdlkab1og.xn--p1ai/awards/
РИА Новости
7 495 645-6601
ФГУП МИА «Россия сегодня»
https://xn--c1acbl2abdlkab1og.xn--p1ai/awards/
экономика, владимир путин
МОСКВА, 23 ноя — РИА Новости. Президент России Владимир Путин подписал закон, который направлен на стимулирование использования индивидуальными предпринимателями патентной системы налогообложения (ПСН) и одновременно расширяет полномочия регионов в этой сфере. Соответствующий документ опубликован на официальном интернет-портале правовой информации.Документ уточняет перечень видов предпринимательской деятельности, при которых возможно применение ПСН, а также содержит нормы, направленные на создание комфортных условий для индивидуальных предпринимателей, которые с 2021 года больше не смогут применять единый налог на вмененный доход (ЕНВД). При этом плательщикам ПСН предоставляется право уменьшать сумму налога на страховые платежи (взносы).
23 ноября 2020, 10:57
В России заработает новая платформа онлайн-оформления услуг для бизнесаОдновременно расширяются полномочия субъектов РФ, касающиеся применения ПСН. На региональный уровень передаются все вопросы, связанные с доходностью, ставками.
При этом в Налоговом кодексе сохраняется перечень видов деятельности, для которых возможно применять ПСН. Так, патенты будут недоступны для тех, кто занимается оптовой торговлей или производит подакцизные товары, а также тем, кто ведет розничную торговлю и оказывает услуги общепита, располагая площадью залов более 150 квадратных метров. До этого, согласно НК, данный налоговый режим могли применять только при залах в 50 «квадратов» и меньше.
27 октября 2020, 10:54
ЛДПР предложила освободить от НДС компании доставки продуктовНа ПСН не смогут перейти и те, кто добывает и реализует полезные ископаемые, совершает сделки с ценными бумагами, оказывает кредитные и иные финансовые услуги, а также оказывает услуги по перевозке пассажиров и багажа, если у этого ИП более 20 транспортных средств.
При переходе на общий режим налогообложения плательщики ЕНВД смогут получить вычет сумм НДС, предъявленных ранее при приобретении товаров, которые были ввезены на территорию страны, но не были использованы в деятельности на этом режиме. Плательщики ЕНВД смогут уменьшить суммы налога за последний налоговый период на сумму страховых взносов, уплаченных в 2021 году. А расходы в виде стоимости сырья и материалов, приобретенных в период применения ЕНВД, предприниматели смогут учесть в период применения упрощенной системы налогообложения.
Закон должен вступить в силу через месяц после его официального опубликования, но не ранее первого числа очередного налогового периода по соответствующему налогу.
Что это такое ЕНВД простыми словами
Подбирая для работы режим налогообложения, многие ИП, а также организации выбирают для себя ЕНВД, что неудивительно, ведь данный режим очень прост как в учете, так и в проведении расчетов и формировании отчетности. С ним может справиться любой предприниматель, даже без помощи бухгалтера. Ведь никаких особых требований данная система не предъявляет к объекту предпринимательской деятельности.
Общие сведения
Общее ознакомление с этой системой налогообложения стоит начать с расшифровки ЕНВД – единый налог на вмененный доход. На практике, действительно оказывается, что для мелкого предпринимательства данный налог действительно оказывается единым. Иногда бывают исключения из правил, но общий смысл остается тот же. ЕНВД может освободить объект предпринимательства от таких налогов:
- Прибыльный налог
- НДФЛ
- НДС
- Имущественный налог и др.
Эта система налогообложения также удобна тем, что не обязывает предпринимателя вести учет всех расходов и доходов. Для него достаточно проводить учет физических показателей.
ЕНВД для ИП удобен также тем, что составлять по нему отчетность очень просто. Ведь налоговым периодом является квартал, а значит, большого накопления данных не происходит. Оплата по налогу также квартальная. То есть то, что предприниматель рассчитал для оплаты до 20 числа первого месяца следующего квартала, то он до 25 числа этого же месяца обязан уплатить в казну.
ЕНВД – это налог, какой определяется предпринимателем на основании установленных законодательством условных показателей, а значит реальный доход, который предприниматель получает, на сумму налога не влияет.
Кто имеет право уплачивать
Платить налоги по данной системе имеют право далеко не все организации и предприниматели, а только те, что осуществляют деятельность, подходящую под требования данной системы в законном порядке. К числу таких в статье №346 относятся:
- Предоставление услуг ремонта и технического обслуживания транспортной техники
- Осуществление перевозок пассажиров и грузов
- Предоставление услуг частными медиками, а также ветеринарные услуги
- Предоставление площади, пригодной для жилья в аренду
- Работа автостоянок
- Разные виды розничной торговли: как с торговым залом, так и без него и др.
Подробный перечень деятельности, которая подпадает под налог ЕНВД, можно найти в вышеуказанной статье. Там же есть и ограничения, которые по нему действуют. Например, этим налогом не может облагаться розничная торговля с размером торгового зала, больше 30 квадратов.
Также, система налогообложения ЕНВД требует предварительной постановки плательщика на учет конкретно по этому налогу. Данный процесс осуществляется путем подачи заявления в налоговый орган в специальной форме, которая разная для ООО и ИП. Процедура его рассмотрения заканчивается тем, что местный налоговый орган выдает Уведомление о постановке на учет ИП или ООО, как плательщика ЕНВД.
Смотрите самое полное видео о ЕНВД:
Как понять ЕНВД
Как объяснить, что такое ЕНВД для ИП простыми словами. Это та система налогообложения, при которой отображать количество реального дохода не надо. В ее рамках, для исчисления налога используются условные величины, чтобы определить доход с конкретного физического показателя. Они рассчитаны и предъявлены законодательными органами и носят постоянный характер.
Чтобы лучше понимать, стоит рассмотреть формулу ЕНВД, а она такова:
Базовая доходность*физический показатель*К1*К2*15%
Базовая доходность является ярким примером того самого вмененного дохода – это та сумма, которую государство ожидает, что вы получите, совершая свою предпринимательскую деятельность. Именно базовая доходность заранее принята властями, для определения примерной суммы налога и она же оказывает основное влияние на него.
Дополнительное влияние оказывает физический показатель, который является ярким отображением размеров вашего бизнеса. Ведь чем он больше – тем больше будет физический показатель, а значит ваш предполагаемый доход и соответственно, размер налога к уплате.
Отдельно надо поговорить о коэффициентах-дефляторах ЕНВД, что это такое простыми словами.
А простыми словами, это та корректировка, которую вносит государство, чтобы увеличить вашу налоговую базу, а следом – размер уплачиваемого налога. Как говорит это же государство, коэффициент – это поправка, для более точного определения базы, с учетом местонахождения бизнеса, ассортимента, проходимости и всего прочего. В общем, по мнению государства, этот коэффициент поможет приблизиться к реальным доходам предпринимателя.
Второй же коэффициент К2, часто на местном уровне установлен за 1 и поэтому существенного влияния на сумму исчисляемого налога не оказывает, а иногда призван даже ее уменьшить.
Итак, специальный режим налогообложения ЕНВД – помогает предпринимателям снизить свое налоговое бремя, дать свободу развития, а также получать большую прибыль от хозяйствования. Отчетность по нему проста и понятна. С нею может справиться даже сам ИП, не прибегая к помощи бухгалтера. Налоговый период ЕНВД- квартал. Именно по его истечении предприниматель подает отчетность в налоговую службу по месту регистрации, а также оплачивает рассчитанный им же размер налога. Данная система доступна не для всех видов деятельности, а окончательный ее перечень устанавливается на местном уровне с целью урегулирования соотношения предложений на региональном рынке.
Рубрикатор статей
Регистрация ИП на ЕНВД. Возможность перехода на ЕНВД.
ЕНВД больше не применяется!
ФНС не принимает заявление о применении Единого налога на вменённый доход вместе с комплектом документов для регистрации ИП. В течение 5 рабочих дней с момента начала деятельности, подпадающей под вменёнку, предприниматель может поменять выбранную до этого систему налогообложения на ЕНВД.
Единый налог на вмененный доход — система налогообложения, которая заменяет налоги на прибыль, имущество, НДС и НДФЛ. Индивидуальный предприниматель оплачивает фиксированный налог, рассчитанный по специальной формуле.
1. Можете ли вы применять ЕНВД
Не все виды деятельности могут облагаться ЕНВД. Не разрешается использовать эту систему налогообложения в следующих случаях:
- при оказании медицинских услуг
- ИП занимается социальным обеспечением
- если ИП сдает в аренду заправочные станции
- Предприниматель работает на торговой площади более 150 кв. м, это же касается площади общепита. При этом размер подсобных помещений в расчет не берется
- У предпринимателя более 100 сотрудников
- Индивидуальный предприниматель осуществляются трастовые операции
- ИП — плательщик единого сельхозналога
- деятельность ведется в рамках простого товарищества, доверительного управления или совместной деятельности
Перейти на ЕНВД могут предприниматели, осуществляющие следующие виды деятельности:
- бытовые услуги, согласно перечню, который Правительство РФ определяет на основании ОКВЭД
- ветеринарные услуги
- розничная торговля
- грузовые и пассажирские перевозки, с ограничением — не более 20 машин в автопарке
- размещение уличной и наружной рекламы
- общепит
- аренда жилья, нежилых помещений, земельных участков, общая площадь не должна превышать 500 кв. метров
- мойка и ремонт автотранспорта, сюда не входит обслуживание транспортных средств по гарантии
- услуги автостоянок, кроме штрафстоянок
2. Заполнение заявления о переходе на ЕНВД
Если вы планируете начать работать с применением единого налога, выполните следующие шаги:
- Проверьте в Налоговом кодексе РФ, подходит ли выбранный вами вид деятельности для ЕНВД (ст. 326.26-326.33)
- Узнайте, какие ставки налога применяются в регионе ведения вашего бизнеса
- Соберите пакет документов и зарегистрируйте ИП в ИФНС. Мы рекомендуем подать при регистрации заявление о применении упрощенной системы налогообложения. Перейти на ЕНВД вы сможете, когда вам будет удобно, в течение 5 рабочих дней с момента начала деятельности, по которому разрешена вменёнка
Вы можете сформировать необходимый пакет документов для регистрации ИП на этом сайте бесплатно за 15 минут
Заполните форму на этом сайте и скачайте готовые документы. В пакет входит уведомление о применении УСН. После регистрации вы сможете оформить переход на ЕНВД.
- Заполните заявление по форме ЕНВД 2
Образец заявления о переходе на ЕНВД
3. Подача заявления на ЕНВД по месту ведения деятельности
Осуществлять предпринимательскую деятельность вы можете в любом месте. Необязательно делать это по месту регистрации ИП.
Для применения ЕНВД необходимо подать заявление и встать на учет в той инспекции, к которой территориально относится место фактического осуществления деятельности. Туда же подаётся отчетность по итогам налоговых периодов.
Определение условной стоимости
Что такое вмененная стоимость?
Условно исчисленное значение, также известное как расчетное условное исчисление, представляет собой предполагаемое значение, присвоенное элементу, когда фактическое значение неизвестно или недоступно. Вмененные значения представляют собой логическое или неявное значение для элемента или набора времени, при этом «истинное» значение еще не установлено.
Вмененное значение будет наиболее вероятной оценкой, используемой для прогнозирования большего набора значений или ряда точек данных. Вмененная стоимость может относиться к стоимости нематериальных активов, принадлежащих фирме, альтернативным издержкам, связанным с событием, или использоваться для определения стоимости исторического объекта, для которого факты о его стоимости в прошлый момент времени недоступны.
Ключевые выводы
- Вмененная стоимость — это расчетная оценка стоимости, полученная, когда прямое или явное значение недоступно или невозможно получить.
- Вмененная стоимость может быть присвоена нематериальным активам, находящимся во владении фирмы, например стоимости патента или другого объекта интеллектуальной собственности.
- Поскольку условно исчисленные значения являются только оценками или прогнозами, они могут быть ошибочными. При оценке финансовой отчетности компании следует с осторожностью относиться к вмененной стоимости.
Общие сведения о вмененной стоимости
Вмененные значения могут использоваться в различных ситуациях. К ним относятся альтернативные издержки, связанные с событием, нематериальные активы, принадлежащие фирме, или стоимость исторического объекта, для которого факты о его стоимости в прошлый момент времени недоступны. Кроме того, точки данных в данных временных рядов могут потребовать оценок для полного набора цифр. Поскольку вмененные стоимости являются справедливыми оценками, их использование обычно не вызывает проблем.
Условно исчисленные значения могут также использоваться при вычислении экономических данных, таких как валовой внутренний продукт (ВВП). Чтобы представить полную картину экономической деятельности, ВВП должен включать некоторые товары и услуги, которые не продаются на рынке. Эти компоненты ВВП называются условными расчетами.
Примеры включают услуги по предоставлению жилья, занимаемому владельцами, финансовые услуги, предоставляемые бесплатно, расходы на личное потребление (PCE) и лечение, предоставляемое работодателем по медицинскому страхованию.Вменения приблизительно соответствуют цене и количеству, которые были бы получены за товар или услугу, если бы они продавались на рынке.
Вмененная стоимость аналогична условно исчисленной стоимости. Вмененная стоимость — это стоимость, понесенная в результате использования актива вместо его инвестирования или принятия альтернативного курса действий. Вмененные затраты — это невидимые затраты, которые не понесены напрямую, в отличие от явных затрат, которые понесены напрямую.
Пример условной стоимости
Например, предположим, что компания XYZ предпочитает инвестировать в проект A, а не в проект B, и этот выбор связан с альтернативными издержками.Фактическая долларовая стоимость, присвоенная этой альтернативной стоимости, является вмененной величиной, поскольку невозможно установить фактическую сумму альтернативной стоимости путем ее измерения.
Стоимость патента, принадлежащего компании ABC, является вмененной стоимостью. Можно оценить, какой дополнительный бизнес или доход был получен благодаря владению патентом и насколько выросла в результате стоимость компании, но невозможно точно измерить это в твердых долларах.
% PDF-1.3 % 1 0 объект > эндобдж 2 0 obj > эндобдж 3 0 obj > эндобдж 4 0 obj > эндобдж 5 0 obj > ручей application / postscriptAdobe Illustrator CS22010-02-09T21: 52: 12 + 05: 302010-03-13T17: 41: 26 + 05: 302010-03-13T17: 41: 26 + 05: 30
㳹 «$ 43 ֈ 0, YƦ & Yi + Y jWΥskp: / J> ZE} om? ^ SiFTyR:%? 5uzZv? BZjxx! I \ SmZ ~ & wY, J3˺ȉ «$ # E f & uh \ Z ^ ʦNvwTuf & 6 ޒ / zÊQ_w`: z> Igo_SKv n5qd6 ɨY 筏ef] Fʄh, ֱ h ;.ᛛ ,?] jNC # ˽ |> Hq31.Q] ~ nq ~ @ M ‘, {«) {) ˤU / 3C 瓧 ؉ wSdÒc ~ S ~ 0.x |? 2a {= \ (! ˕ % B4vvY_OhVsV l60Jq> [uchYi9? Y $ K, wg_fA ++ Hcmx2 Xʻdv Ա $ o6Rz’WdX @ # (G% T ଔ i’F2,;> w / l! HB ۯ fmvefaul l9 и% G AG ذ / 8- ֥ w2w-Vn> J5X1? 9 91ЬC} w # jbY; urqXfDIC | ‘lL` \ n {E
Множественное вменение недостающих данных в эпидемиологических и клинических исследованиях: возможности и подводные камни
- Джонатан Стерн, профессор медицинской статистики и эпидемиологии1,
- Ян Р. Уайт, старший научный сотрудник2,
- Джон Б. Карлин, директор отдела клинической эпидемиологии и биостатистики3,
- Майкл Спратт, научный сотрудник1,
- Патрик Ройстон, старший научный сотрудник 4,
- Майкл Дж. Кенвард, профессор биостатистики5,
- Анджела М. Вуд, преподаватель биостатистики6,
- Джеймс Р. Карпентер, специалист по медицинской и социальной статистике5
- 1 Департамент социальной медицины, Бристольский университет, Бристоль BS8 2PR
- 2 MRC Отдел биостатистики, Институт общественного здравоохранения, Кембридж CB2 0SR
- 3 Отдел клинической эпидемиологии и биостатистики, Детский научно-исследовательский институт Мердока, a Мельбурнский университет, Парквилл, Виктория 3052, Австралия
- 4 Группы по онкологическим и статистическим методам, Отдел клинических испытаний MRC, Лондон NW1 2DA
- 5 Отдел медицинской статистики, Лондонская школа гигиены и тропической медицины Лондон, WC1E 7HT
- 6 Департамент общественного здравоохранения и первичной медико-санитарной помощи, Институт общественного здравоохранения, Кембридж
- Для корреспонденции: JAC Sterne jonathan.sterne {at} bristol.ac.uk
В большинстве исследований отсутствуют некоторые данные. Джонатан Стерн и его коллеги описывают надлежащее использование и отчетность метода множественного вменения для работы с ними
Отсутствующие данные неизбежны в эпидемиологических и клинических исследованиях, но их способность подорвать достоверность результатов исследований часто упускается из виду в медицинской литературе .1 Это отчасти объясняется тем, что статистические методы, которые могут решать проблемы, возникающие из-за отсутствия данных, до недавнего времени были недоступны для медицинских исследователей.Однако множественное вменение — относительно гибкий универсальный подход к работе с отсутствующими данными — теперь доступен в стандартном статистическом программном обеспечении 2 3 4 5, что позволяет обрабатывать отсутствующие данные в полурегулярном режиме. Все чаще сообщается о результатах, основанных на этом методе, требующем больших вычислительных ресурсов, но его необходимо применять осторожно, чтобы избежать ошибочных выводов.
В этой статье мы рассмотрим причины, по которым отсутствие данных может привести к смещению и потере информации в эпидемиологических и клинических исследованиях.Мы обсуждаем обстоятельства, при которых множественное вменение может помочь за счет уменьшения систематической ошибки или повышения точности, а также описываем возможные подводные камни при его применении. Наконец, мы описываем недавнее использование и составление отчетов об анализах с использованием множественного вменения в общих медицинских журналах и предлагаем руководящие принципы проведения таких анализов и составления отчетов о них.
Последствия отсутствия данных
Исследователи обычно устраняют недостающие данные, включая в анализ только полные случаи — тех людей, у которых нет недостающих данных ни по одной из переменных, необходимых для этого анализа.Однако результаты такого анализа могут быть необъективными. Кроме того, совокупный эффект отсутствия данных по нескольким переменным часто приводит к исключению значительной части исходной выборки, что, в свою очередь, приводит к значительной потере точности и мощности.
Риск смещения из-за отсутствия данных зависит от причин, по которым данные отсутствуют. Причины отсутствия данных обычно классифицируются как: полное отсутствие случайных данных (MCAR), отсутствие случайных данных (MAR) и отсутствие случайных данных (MNAR) (вставка 1).6 Эта номенклатура широко используется, хотя фразы мало передают их техническое значение и практическое значение, которое может быть незаметным. Когда существует вероятность того, что данные отсутствуют случайно, но не полностью случайным образом, анализ, основанный на полных случаях, может быть необъективным. Такие предубеждения можно преодолеть с помощью таких методов, как множественное вменение, которые позволяют включать в анализ лиц с неполными данными. К сожалению, по наблюдаемым данным невозможно отличить случайное пропущенное от неслучайного.Следовательно, смещения, вызванные отсутствием данных, которые отсутствуют не случайно, могут быть устранены только путем анализа чувствительности, исследующего влияние различных предположений о механизме отсутствия данных.
Блок 1 Типы отсутствующих данных *
Полностью отсутствуют случайно —Систематических различий между отсутствующими значениями и наблюдаемыми значениями нет. Например, измерения артериального давления могут отсутствовать из-за поломки автоматического сфигмоманометра
Случайно отсутствует —Любая систематическая разница между отсутствующими значениями и наблюдаемыми значениями может быть объяснена различиями в наблюдаемых данных.Например, пропущенные измерения артериального давления могут быть ниже, чем измеренные артериальное давление, но только потому, что у молодых людей может быть больше шансов пропустить измерения артериального давления.
Отсутствуют не случайно — Даже после того, как наблюдаемые данные приняты во внимание, сохраняются систематические различия между недостающими значениями и наблюдаемыми значениями. Например, люди с высоким кровяным давлением с большей вероятностью пропускают прием в клинику из-за головной боли
Статистические методы обработки недостающих данных
Для работы с недостающими данными обычно используются различные специальные подходы.К ним относятся замена отсутствующих значений значениями, рассчитанными на основе наблюдаемых данных (например, среднее из наблюдаемых значений), использование индикатора отсутствующей категории 7 и замена отсутствующих значений последним измеренным значением (последнее значение перенесено на будущее) .8 Ни одно из эти подходы в целом статистически достоверны и могут привести к серьезной систематической ошибке. Единичное вменение пропущенных значений обычно приводит к слишком малым стандартным ошибкам, поскольку не учитывает тот факт, что мы не уверены в пропущенных значениях.
Если в рандомизированном контролируемом исследовании отсутствуют данные о результатах, общий анализ чувствительности заключается в изучении «наилучшего» и «наихудшего» сценариев путем замены отсутствующих значений на «хорошие» результаты в одной группе и «плохие» результаты в другой. группа. Это может быть полезно, если имеется только несколько пропущенных значений бинарного результата, но поскольку вменение всех пропущенных значений как хороших или плохих является сильным предположением, анализ чувствительности может дать очень широкий диапазон оценок эффекта вмешательства, даже если есть только умеренное количество пропущенных результатов.Когда результаты являются количественными (числовыми), такой анализ чувствительности невозможен, потому что нет очевидных хороших или плохих результатов.
Существуют обстоятельства, при которых анализ полных случаев не приводит к систематической ошибке. Когда отсутствующие данные встречаются только в переменной результата, которая измеряется один раз для каждого человека, такой анализ не будет смещен, при условии, что все переменные, связанные с отсутствующим результатом, могут быть включены в качестве ковариат (в соответствии с предположением о случайном отсутствии результата).Отсутствующие данные в переменных-предикторах также не вызывают смещения при анализе полных наблюдений, если причины отсутствия данных не связаны с результатом.9 10 В этих обстоятельствах специальные методы устранения недостающих данных могут уменьшить потерю точности и мощности в результате исключение лиц с неполными предикторами, которые не требуются во избежание систематической ошибки.
Если мы предположим, что данные отсутствуют случайно (вставка 1), то беспристрастный и статистически более эффективный анализ (по сравнению с анализом, основанным на полных случаях), как правило, может быть выполнен путем включения лиц с неполными данными.Иногда это возможно путем построения более общей модели, включающей информацию о частично наблюдаемых переменных — например, с использованием моделей случайных эффектов для включения информации о частично наблюдаемых переменных из промежуточных временных точек11 12 или путем использования байесовских методов для включения частично наблюдаемых переменных в полную статистическую информацию. Модель, на основе которой может быть получен интересующий анализ.13 Другие подходы включают взвешивание анализа, чтобы учесть недостающие данные, 14 15 и оценку максимального правдоподобия, которая одновременно моделирует причины отсутствующих данных и ассоциации, представляющие интерес в содержательном анализе.13 Здесь мы сосредоточимся на множественном вменении, которое является популярной альтернативой этим подходам.
Что такое множественное вменение?
Множественное вменение — это общий подход к проблеме пропущенных данных, который доступен в нескольких обычно используемых статистических пакетах. Он направлен на то, чтобы учесть неопределенность в отношении недостающих данных путем создания нескольких различных наборов правдоподобных условно исчисленных данных и надлежащего объединения результатов, полученных на основе каждого из них.
Первым этапом является создание нескольких копий набора данных с заменой отсутствующих значений на вмененные значения.Они выбираются из их прогнозного распределения на основе наблюдаемых данных — таким образом, множественное вменение основано на байесовском подходе. Процедура вменения должна полностью учитывать всю неопределенность при прогнозировании пропущенных значений путем введения соответствующей изменчивости в множественные вмененные значения; мы никогда не сможем узнать истинные значения недостающих данных.
На втором этапе используются стандартные статистические методы для подгонки интересующей модели к каждому из вмененных наборов данных. Оценочные связи в каждом из вмененных наборов данных будут отличаться из-за вариации, вносимой в вменение пропущенных значений, и они полезны только при усреднении вместе, чтобы дать общие оценочные связи.Стандартные ошибки рассчитываются с использованием правил Рубина 16, которые учитывают различия в результатах между вмененными наборами данных, отражая неопределенность, связанную с отсутствующими значениями. Правильные выводы получены, потому что мы усредняем распределение недостающих данных с учетом наблюдаемых данных.
Рассмотрим, например, исследование, изучающее связь систолического артериального давления с риском последующей ишемической болезни сердца, в котором у некоторых людей отсутствуют данные о систолическом артериальном давлении.Вероятность того, что систолическое артериальное давление отсутствует, вероятно, будет снижаться с возрастом (врачи чаще измеряют его у пожилых людей), увеличением индекса массы тела и курением в анамнезе (врачи чаще измеряют его у людей с риском сердечных заболеваний. факторы или сопутствующие заболевания). Если мы предположим, что данные отсутствуют случайным образом и что у нас есть данные систолического артериального давления для репрезентативной выборки лиц в разных группах по возрасту, курению, индексу массы тела и ишемической болезни сердца, то мы можем использовать множественное вменение для оценки общей связи. между систолическим артериальным давлением и ишемической болезнью сердца.
Множественное вменение может повысить достоверность медицинских исследований. Однако процедура множественного вменения требует, чтобы пользователь смоделировал распределение каждой переменной с пропущенными значениями в терминах наблюдаемых данных. Достоверность результатов множественного вменения зависит от тщательного и надлежащего проведения такого моделирования. Множественное вменение не следует рассматривать как рутинный метод, применяемый одним нажатием кнопки — во всех случаях, когда необходимо получить помощь специалиста в области статистики.
Подводные камни в анализе множественных вменений
В недавней статье BMJ сообщалось о разработке инструмента QRISK для прогнозирования сердечно-сосудистого риска на основе большой базы данных общих исследований.17 Исследователи правильно определили проблему с отсутствием данных в своей базе данных и использовали множественное вменение для обработки недостающих данных в своем анализе. Однако в их опубликованной модели прогноза было обнаружено, что риск сердечно-сосудистых заболеваний не связан с холестерином (кодируемым как отношение общего холестерина липопротеинов высокой плотности к холестерину высокой плотности), что было неожиданно.18 Впоследствии авторы пояснили, что, когда они ограничили свой анализ людьми с полной информацией (без пропущенных данных), возникла четкая связь между холестерином и риском сердечно-сосудистых заболеваний. Более того, аналогичный результат был получен после использования пересмотренной, улучшенной процедуры вменения19. Таким образом, важно знать о проблемах, которые могут возникнуть при анализе множественных вменений, которые мы обсудим ниже.
Исключение переменной результата из процедуры вменения
Часто анализ исследует связь между одним или несколькими предикторами и результатом, но некоторые из предикторов имеют пропущенные значения.В этом случае результат содержит информацию об отсутствующих значениях предикторов, и эту информацию необходимо использовать.20 Например, рассмотрим модель выживания, связывающую систолическое артериальное давление со временем до ишемической болезни сердца, подогнанную к данным, которые имеют некоторые пропущенные значения систолическое кровяное давление. Когда вменяются недостающие значения систолического артериального давления, у людей, у которых развивается ишемическая болезнь сердца, должны быть в среднем более высокие значения, чем у тех, у кого болезнь не наблюдается. Отсутствие учета исхода ишемической болезни сердца и времени до этого результата при вменении недостающих значений систолического артериального давления могло бы ошибочно ослабить связь между систолическим артериальным давлением и ишемической болезнью сердца.
Работа с переменными с ненормальным распределением
Многие процедуры множественного вменения предполагают, что данные распределены нормально, поэтому включение переменных с ненормальным распределением может привести к смещению. Например, если биохимический фактор имел сильно искаженное распределение, но неявно предполагалось, что он имеет нормальное распределение, то процедуры вменения могут дать некоторые неправдоподобно низкие или даже отрицательные значения. Прагматический подход здесь состоит в том, чтобы преобразовать такие переменные, чтобы приблизиться к нормальности перед вменением, а затем преобразовать вмененные значения обратно в исходную шкалу.При отсутствии данных в двоичных или категориальных переменных возникают различные проблемы. Некоторые процедуры21 могут обрабатывать эти типы отсутствующих данных лучше, чем другие 13, и эта область требует дальнейших исследований.22 23
Вероятность случайного отсутствия данных
«Случайное отсутствие данных» — это допущение, которое оправдывает анализ, а не свойство данные. Например, предположение о случайном отсутствии данных может быть разумным, если переменная, которая прогнозирует отсутствие данных в интересующей ковариате, включена в модель вменения, но не в том случае, если переменная не включена в модель.Множественный анализ вменения позволит избежать систематической ошибки только в том случае, если в модель вменения будет включено достаточное количество переменных, позволяющих прогнозировать пропущенные значения. Например, если у лиц с высоким социально-экономическим статусом будет больше шансов измерить систолическое артериальное давление и меньше шансов иметь высокое систолическое артериальное давление, тогда, если социально-экономический статус не включен в модель, используемую при вменении систолического артериального давления, множественное вменение будет занижено. среднее систолическое артериальное давление и может ошибочно оценить связь между систолическим артериальным давлением и ишемической болезнью сердца.
Разумно включать широкий спектр переменных в модели вменения, включая все переменные в основном анализе, плюс, насколько это возможно с вычислительной точки зрения, все переменные, предсказывающие сами пропущенные значения, и все переменные, влияющие на процесс, вызывающий пропущенные данные , даже если они не представляют интереса для анализа по существу24. Невыполнение этого требования может означать, что случайно пропущенное допущение не является правдоподобным и что результаты анализа по существу являются необъективными.
Данные, которые отсутствуют не случайно
Некоторые данные отсутствуют по сути не случайно, потому что невозможно учесть систематические различия между отсутствующими значениями и наблюдаемыми значениями, используя наблюдаемые данные. В таких случаях множественное вменение может привести к ошибочным результатам. Например, рассмотрим исследование, изучающее предикторы депрессии. Если люди с большей вероятностью пропускают встречи из-за того, что они находятся в депрессивном состоянии в день встречи, тогда может оказаться невозможным сделать правдоподобным случайное пропущенное предположение, даже если в модель вменения включено большое количество переменных.Когда данные отсутствуют не случайно, смещение в анализе, основанном на множественном вменении, может быть таким же или большим, чем смещение в анализе полных случаев. К сожалению, по данным невозможно определить, насколько серьезной может быть проблема. Ответственность за рассмотрение всех возможных причин отсутствия данных и оценку вероятности того, что пропущенные данные не случайны, являются серьезной проблемой, возлагается на аналитика данных.
Если полные случаи и множественный анализ вменения дают разные результаты, аналитик должен попытаться понять, почему, и об этом следует сообщить в публикациях.
Вычислительные задачи
Множественное вменение требует больших вычислительных ресурсов и включает аппроксимации. Некоторые алгоритмы необходимо запускать повторно, чтобы получить адекватные результаты, а требуемая длина выполнения увеличивается, когда отсутствуют другие данные. Непредвиденные трудности могут возникнуть, когда алгоритмы работают в условиях, отличных от тех, в которых они были разработаны, например, с большой долей отсутствующих данных, очень большим количеством переменных или небольшим количеством наблюдений.Эти моменты более подробно обсуждаются в другом месте.25
Практическое значение
Модели вменения, которые использовались в первоначальной и пересмотренной версиях инструмента прогнозирования сердечно-сосудистого риска QRISK, обсужденного выше, были разъяснены.26 Основные причины неожиданного открытия Нулевой ассоциацией между уровнем холестерина и риском сердечно-сосудистых заболеваний было отсутствие результатов сердечно-сосудистых заболеваний при вменении недостающих значений холестерина и вычислении отношения холестерина к ЛПВП на основе вмененных значений холестерина и ЛПВП, что привело к крайним значениям этого отношения, включенным в оценки.Воздействие этих ловушек было усилено большой долей отсутствующих данных (отсутствовали 70% значений холестерина ЛПВП).
Отчетность в новейшей литературе
Множественное вменение обычно предполагает гораздо более сложное статистическое моделирование, чем анализ одиночной регрессии, обычно описываемый в медицинских исследовательских работах. Однако ограничения на объем медицинских исследовательских работ означают, что детали процедуры вменения часто сообщаются кратко или вообще не сообщаются.Незнание рецензентами метода множественного вменения может затруднить им постановку соответствующих вопросов об используемых методах.
Чтобы изучить недавнее использование и отчетность по множественному условному исчислению, мы провели поиск в четырех основных медицинских журналах ( New England Journal of Medicine , Lancet , BMJ и JAMA ) с 2002 по 2007 год на предмет статей, содержащих оригинальные исследования. результаты, в которых использовалось множественное вменение. Статьи были найдены с использованием средств поиска на веб-сайтах каждого журнала для поиска фразы «множественное вменение» в полном тексте всех статей, опубликованных в течение указанного периода.Мы нашли 59 статей, и сообщаемое использование множественного вменения примерно удвоилось за шесть лет.
Таблица⇓ обобщает результаты нашего исследования. Использовались различные методы множественного вменения, при этом о конкретном методе часто сообщалось лишь расплывчато (например, со ссылкой на книгу). Тридцать шесть статей содержали по крайней мере некоторую информацию о количестве недостающих данных, но только семь полностью или частично сообщали о сравнениях распределений ключевых переменных у лиц с отсутствующими данными и без них.О количестве наборов данных, основанных на вменении, сообщалось в 22 документах. Результаты как предполагаемого, так и полного анализа случаев были полностью представлены только в семи статьях, причем в одном из них был представлен анализ чувствительности. Таким образом, редко удавалось оценить влияние пропуска данных. Переменные, используемые в моделях вменения, редко указывались в списке, и вероятность случайного пропуска допущения редко оценивалась или обсуждалась.
Отчетность о множественном вменении в 59 статьях, опубликованных в общих медицинских журналах с 2002 по 2007 гг. для облегчения экспертной оценки, не отвлекаясь от основного вопроса исследования.Во вставке 2 перечислена информация, которую следует предоставить либо в качестве дополнений, либо в основном документе. Это расширяет руководство, предоставленное в рамках инициативы STROBE, по усилению отчетности по обсервационным исследованиям27, и дополняет предложения по отчетности об анализах с использованием множественного вменения в эпидемиологической литературе28
Вставка 2 Рекомендации по представлению любого анализа, на который могут повлиять отсутствующие данные
Сообщите количество пропущенных значений для каждой интересующей переменной или количество наблюдений с полными данными для каждого важного компонента анализа.Если возможно, укажите причины пропущенных значений и укажите, сколько человек было исключено из-за отсутствия данных при сообщении о потоке участников в исследовании. Если возможно, опишите причины отсутствия данных с точки зрения других переменных (а не просто укажите универсальную причину, такую как неэффективность лечения)
Уточните, есть ли важные различия между людьми с полными и неполными данными — например, предоставив таблица, в которой сравниваются распределения ключевых переменных воздействия и результатов в этих разных группах
Опишите тип анализа, использованный для учета отсутствующих данных (например, множественное вменение), и сделанные допущения (например, отсутствующие случайным образом)
Для анализа, основанного на множественном вменении
Предоставьте подробную информацию о моделировании вменения:
Сообщите подробную информацию об используемом программном обеспечении и ключевых настройках для моделирования вменения
Сообщите количество импутированных наборов данных, которые были созданы (Хотя было предложено, что пяти наборов условно исчисленных данных будет достаточно для теоретических оснований, 10 11 большее число (не менее 20) может быть предпочтительным для уменьшения изменчивости выборки из процесса вменения29)
Какие переменные были включены в процедуру вменения?
Как поступали с нестандартно распределенными и бинарными / категориальными переменными?
Если статистические взаимодействия были включены в окончательный анализ, были ли они также включены в модели вменения?
Если большая часть данных рассчитана, сравните наблюдаемые и вмененные значения
По возможности, предоставьте результаты анализов, ограниченных до полных случаев, для сравнения с результатами, основанными на множественном вменении.Если есть существенные различия между результатами, предложите объяснения, помня о том, что анализ полных случаев может иметь больше случайных вариаций и что при предположении о случайном отсутствии множественного вменения следует скорректировать систематические ошибки, которые могут возникнуть при анализе полных случаев
Обсудите, делают ли переменные, включенные в модель вменения, вероятным случайное пропущенное предположение. механизмы анализа чувствительности.Это область текущих исследований40 31
Вставка 3 связывает предлагаемые руководящие принципы использования множественного вменения в опубликованном документе, в котором изучалась экономическая эффективность химиотерапии и стандартной паллиативной помощи у пациентов с далеко зашедшими немелкоклеточными легкими. рак.
Вставка 3 Пример использования множественного вменения
Burton et al32 использовали данные рандомизированного контролируемого исследования для сравнения экономической эффективности химиотерапии и стандартной паллиативной помощи у пациентов с распространенным немелкоклеточным раком легкого.Стоимость была получена для подгруппы из 115 пациентов, но только для 82 пациентов.
Они указали объем и распределение недостающих данных в таблице 1 своего документа. Было заявлено, что характеристики пациента и опухоли сравнимы с таковыми с полными и неполными данными, но было указано, что влияние лечения на выживаемость различается. Авторы использовали процедуру множественного вменения в статистическом программном обеспечении SAS (PROC MI) для вменения недостающих данных. Перечислены переменные, включенные в модели вменения.Были созданы пять условно исчисленных наборов данных. Общая длина прогона составила 12 500 итераций, при этом вменения выполнялись после каждых 2500-го вменения. Логарифмические и логит-преобразования использовались для работы с ненормальностью, а двухэтапная процедура использовалась для работы с переменными с высокой долей нулевых значений (полунепрерывные распределения). Перед анализом полные данные были преобразованы в исходные масштабы.
Полный анализ случая привел к более высокой средней стоимости химиотерапии по сравнению с паллиативной помощью (2804 фунтов стерлингов (3285 евро; 4580 долларов США), 95% доверительный интервал от 1236 фунтов стерлингов до 4290 фунтов стерлингов), чем анализ с использованием множественного вменения (2384 фунтов стерлингов, 95 фунтов стерлингов). % CI от 833 до 3954 фунтов стерлингов).Полный анализ случая показал, что химиотерапия не была рентабельной (средняя чистая денежная выгода — 3346 фунтов стерлингов), но анализ множественных вменений показал, что она была рентабельной (средняя чистая денежная выгода 1186 фунтов стерлингов), хотя доверительные интервалы были широкими.
В ходе обсуждения авторы отметили, что анализ множественного вменения «предполагает, что неполные данные о затратах отсутствуют случайным образом, так что отсутствие компонентов затрат связано только с наблюдаемыми данными, либо с наблюдаемыми ковариатами, либо с эффективностью.Однако они не обсуждали, насколько правдоподобно случайное пропущенное предположение, и не проводили анализ чувствительности, исследуя устойчивость результатов к предполагаемому отсутствию случайных механизмов.
Резюме
Мы с энтузиазмом относимся к возможности множественного вменения и других методов14 для повышения достоверности результатов медицинских исследований и сокращения потерь ресурсов, вызванных отсутствием данных. Стоимость анализа множественного вменения невелика по сравнению со стоимостью сбора данных.Было бы жаль, если бы предотвращаемые ловушки множественного вменения замедлили прогресс в направлении более широкого использования этих методов. Больше нельзя извинить недостающие значения и причину, по которой они возникли, чтобы они скрылись под ковром, ни то, что потенциально вводящий в заблуждение и неэффективный анализ полных случаев можно считать адекватным. Мы надеемся, что обсуждаемые здесь подводные камни и рекомендации будут способствовать правильному использованию и представлению методов работы с недостающими данными.
Примечания
Процитируйте это как: BMJ 2009; 338: b2393
Сноски
Мы благодарим Люсинду Биллингем за проверку нашего описания статьи, приведенной во вставке 3.
Соавторы: JACS, IRW, JBC и JRC написали первый черновик статьи. MS провела обзор использования множественного вменения в медицинских журналах и проанализировала данные. Все авторы внесли свой вклад в окончательный вариант и последующие редакции статьи. JACS, IRW и JRC выступят в качестве поручителей
Финансирование: Финансируется грантом Совета медицинских исследований Великобритании G0600599. IRW был поддержан грантом MRC U.1052.00.006, а JBC — грантом 334336 NHMRC (Австралия).
Конкурирующие интересы: не заявлены.
Провенанс и экспертная оценка: Не введен в эксплуатацию; внешняя экспертная оценка.
Ссылки
- ↵
- ↵
- ↵
- ↵
- ↵
- ↵
Little RJ, Rubin DB. Статистический анализ с отсутствующими данными. 2-е изд. Нью-Йорк: Wiley, 2002.
- ↵
- ↵
- ↵
- ↵
- ↵
- ↵
Goldstein H, Carpenter J, Kenward MG, Levin K.Многоуровневые модели с многомерными смешанными типами отклика. Статистическое моделирование (в печати).
- ↵
Schafer JL. Анализ неполных многомерных данных. Лондон: Chapman and Hall, 1997.
- ↵
- ↵
- ↵
Рубин Д. Множественное вменение для неполучения ответов в опросах. Нью-Йорк: Wiley, 1987.
- ↵
- ↵
- ↵
- ↵
- ↵
- ↵
- ↵
- ↵
- ↵
- ↵
- ↵
- ↵
- ↵ ↵
- ↵
- ↵
Границы | Последовательный расчет отсутствующих пространственно-временных данных об осадках с использованием случайных лесов
Введение
Осадки являются важным компонентом экогидрологического цикла и играют решающую роль в формировании климата Земли.Он служит входными данными для различных экогидрологических моделей для определения снежного покрова, инфильтрации, стока поверхностных вод, пополнения подземных вод и переноса химикатов, отложений, питательных веществ и пестицидов (Devi et al., 2015). Для численного моделирования поверхностного потока обычно требуется полный временной ряд осадков вместе с другими метеорологическими данными (например, температура, относительная влажность, солнечная радиация) в качестве входных данных для моделирования (Dwivedi et al., 2017, 2018; Hubbard et al., 2018, 2020; Захара и др., 2020). Однако в метеорологических записях часто отсутствуют значения по разным причинам, например, из-за неисправности оборудования, перебоев в работе сети и стихийных бедствий (Varadharajan et al., 2019). Недостающие значения необходимо реконструировать или точно рассчитать, чтобы гарантировать, что оценки статистических свойств, таких как среднее значение и ковариация, являются непротиворечивыми и несмещенными (Schneider, 2001), поскольку неточные оценки могут повредить точности экогидрологических моделей. Восстановить неполный временной ряд суточных осадков особенно сложно, поскольку он демонстрирует высокую степень пространственной и временной изменчивости (Simolo et al., 2010).
Предыдущие усилия по вменению недостающих значений временного ряда осадков делятся на две широкие категории: авторегрессия одномерных временных рядов и пространственная интерполяция данных об осадках. Методы авторегрессии являются самодостаточными и вменяют недостающие значения, используя данные из того же заполняемого временного ряда. Простые приложения могут включать использование среднего значения временного ряда или данных за 1 или несколько дней до и после даты пропуска данных (Acock and Pachepsky, 2000).Более сложные версии авторегрессионных подходов реализуют стохастические методы и машинное обучение (Box and Jenkins, 1976; Adhikari and Agrawal, 2013). Чтобы проиллюстрировать некоторые недавние исследования, Gao et al. (2018) выделили методы явного моделирования автокорреляции и гетероскедастичности (или меняющейся дисперсии во времени) гидрологических временных рядов (таких как осадки, расход и уровни грунтовых вод). Они предложили использовать авторегрессионные модели скользящего среднего и авторегрессионные модели условной гетероскедастичности.Чуан и др. (2019) объединили модель вероятностного анализа главных компонент и алгоритм максимизации ожидания, что позволило им получить вероятностные оценки отсутствующих значений осадков. Горшенин и др. (2019) использовали методологию на основе шаблонов для классификации засушливых и дождливых дней, а затем заполнили данные об осадках для дождливых дней с использованием подходов машинного обучения (таких как k-ближайшие соседи, максимизация ожидания, вспомогательные векторные машины и случайные леса). Однако основным ограничением авторегрессионных методов является необходимость того, чтобы вмененная переменная показывала высокую временную автокорреляцию, что не обязательно справедливо для осадков (Simolo et al., 2010). Следовательно, такие методы имеют ограниченную применимость, когда дело доходит до восстановления временного ряда осадков.
Методы пространственной интерполяции, с другой стороны, вменяют недостающие значения на целевой станции, принимая средневзвешенные значения синхронных данных, то есть данных одновременно, от опорных станций (обычно соседних станций). Успех этих методов зависит от наличия сильной корреляции между режимами осадков между целевыми и опорными станциями.Двумя наиболее известными подходами являются взвешивание с обратным расстоянием (Shepard, 1968) и методы нормального отношения (Paulhus and Kohler, 1952). Взвешивание обратного расстояния предполагает, что веса пропорциональны расстоянию от цели, в то время как метод нормального отношения предполагает, что веса пропорциональны отношению среднего годового количества осадков на целевой и опорной станциях. Другой известный подход к интерполяции основан на кригинге или гауссовских процессах, которые присваивают веса, учитывая пространственные корреляции в данных (Oliver and Webster, 2015).Тегаварапу и Чандрамули (2005) предложили несколько улучшений методов взвешивания, а также ввели метод взвешивания с коэффициентом корреляции — здесь веса пропорциональны коэффициенту корреляции с целевым показателем. Недавние исследования предложили новые схемы взвешивания с использованием более сложных структур (например, Morales Martínez et al., 2019; Teegavarapu, 2020). Параллельно проводились исследования для учета различных неопределенностей при вменении. Например, Ramos-Calzado et al.(2008) предложили метод взвешивания для учета неопределенностей измерений во временном ряду осадков. Lo Presti et al. (2010) предложили методологию аппроксимации каждого пропущенного значения распределением значений, где каждое значение в распределении получается посредством одномерной регрессии с каждой из опорных станций. Simolo et al. (2010) указали, что подходы к взвешиванию имеют тенденцию переоценивать количество дождливых дней и недооценивать сильные осадки. Они обратились к этой проблеме, предложив процедуру пространственной интерполяции, которая систематически сохраняет распределение вероятностей, долгосрочную статистику и время выпадения осадков.
Критический обзор литературы показывает, что в целом методы пространственной интерполяции имеют два фундаментальных недостатка: (i) как оптимально выбирать соседей, то есть опорные станции, и (ii) как присваивать веса выбранным станциям. Хотя выбор опорных станций обычно выполняется с использованием статистических мер корреляции, присвоение весов выбранным станциям в настоящее время является постоянной областью исследований. Рассмотренные до сих пор методы основаны на идее определения функциональной формы весовых соотношений.Соответствующая функциональная форма может варьироваться от одного региона к другому в зависимости от преобладающих режимов выпадения осадков, на которые влияют местные топографические и конвективные эффекты. Использование несоответствующей или слишком простой функциональной формы может исказить статистические свойства наборов данных (например, среднее значение и ковариацию). Некоторые исследователи предложили устранить эти недостатки с помощью байесовских подходов (например, Yozgatligil et al., 2013; Chen et al., 2019; Jahan et al., 2019). Они подпадают под широкую категорию алгоритмов максимизации ожидания и увеличения данных, что дает распределение вероятностей для каждого пропущенного значения.
Альтернативный подход для вменения недостающих данных — это применение методов, управляемых данными или машинного обучения (ML), которые становятся все более заметными для вменения с использованием пространственной интерполяции. Этим методам не требуется указывать функциональную форму a priori , и они могут изучать многовариантные отношения между целевой станцией и опорными станциями с использованием доступных наборов данных. Исследования показали, что эффективность методов машинного обучения обычно выше, чем у традиционных методов взвешивания (например,г., Тегаварапу и Чандрамули, 2005; Хасанпур Кашани и Динпашох, 2012 г .; Londhe et al., 2015). Кроме того, были проведены исследования для определения оптимальной архитектуры для методов на основе машинного обучения (Coulibaly и Evora, 2007; Kim and Pachepsky, 2010). В этой работе мы используем метод случайных лесов (RF). RF — это метод ансамблевого обучения, который уменьшает связанные смещения и дисперсию, делая прогнозы менее склонными к переобучению. Кроме того, недавнее исследование показало, что условное исчисление на основе RF в целом является надежным, а производительность улучшается с увеличением корреляции между целевым показателем и эталонами (Tang and Ishwaran, 2017).
Независимо от метода вменения, внутренним ограничением алгоритмов пространственной интерполяции является необходимость для опорных станций иметь полные записи в течение интересующего периода времени. Это ограничение критично для алгоритмов машинного обучения, где неполные записи препятствуют обучению на основе данных многомерных отношений. Следовательно, успех пространственной интерполяции зависит от того, сильно ли коррелируют ли осадки на целевой станции с осадками на станциях с полными записями.Станция с неполной записью обычно исключается из анализа, даже если эта станция может иметь высокую корреляцию с целевой станцией. В этой работе мы предполагаем, что станции с неполными записями содержат информацию, которая может улучшить пространственную интерполяцию, если они будут включены в анализ. Мы предлагаем новый алгоритм, а именно последовательное вменение, которое использует неполные записи для вменения пропущенных значений. В этом подходе станции, которые рассчитываются первыми, также включаются в качестве опорных станций для расчета последующих станций.Мы реализуем этот алгоритм в контексте расчета недостающих суточных значений осадков и демонстрируем его преимущества, включив его в пространственную интерполяцию на основе радиочастот.
Далее мы начнем с описания области исследования и источников данных, а затем дадим краткое введение в метод случайных лесов (RF). Затем мы описываем все наши численные эксперименты, начиная с базового вменения, которое помогает оценить эффективность последовательного вменения. За этим следует описание алгоритма последовательного вменения, а также наброски различных сценариев для оценки последовательного вменения.Мы сравниваем результаты последовательного вменения с непоследовательным вменением, при котором неполные записи не используются для последующих вменений. Наконец, мы обсуждаем значение наших результатов и высказываем некоторые заключительные мысли.
Методология
Область исследования и источники данных
Мы провели это исследование с использованием данных из Региона водных ресурсов Верхнего Колорадо (UCWRR), который является одним из 21 основных регионов водных ресурсов, классифицированных Геологической службой США для разделения и подразделения Соединенных Штатов на все более мелкие водосборные территории.UCWRR является основным источником воды на юго-западе США и включает восемь субрегионов, 60 суб-бассейнов, 523 водосбора и 3179 суб-водоразделов. Несколько агентств имеют в СВВР активные станции мониторинга погоды. Для нашего исследования мы рассмотрели метеостанции, обслуживаемые Службой охраны природных ресурсов (NRCS). В таблице 1 приведены различные сети, составляющие базу данных NRCS.
Таблица 1 . Сводка станций NRCS в UCWRR.
На рисунке 1 показано пространственное распределение станций NRCS в UCWRR.Девяносто семь станций имеют полные записи, которые в основном принадлежат сети Snowpack Telemetry (SNOTEL). Мы рассмотрели данные, охватывающие 10-летнее окно с 2008 по 2017 год. За этот период у NRCS было 152 активных станции в UCWRR, которые сообщают суточные данные об осадках. Для этого исследования наш набор данных ограничен 97 станциями с полными записями. Мы загрузили данные через NRCS Interactive Map and Report Generator (по состоянию на 16 января 2020 г.).
Рисунок 1 .Пространственная протяженность UCWRR, а также расположение станций в базе данных NRCS (состоящей из 97 полных и 55 неполных записей).
Метод пространственной интерполяции: случайные леса (РФ)
RF — это метод машинного обучения, основанный на ансамбле или агрегировании деревьев решений (Breiman, 2001). Дерево решений — это структура, подобная блок-схеме, которая рекурсивно разделяет входное пространство признаков на более мелкие подпространства (рисунок 2). Рекурсия выполняется до тех пор, пока подпространства не станут достаточно маленькими, чтобы соответствовать простым линейным моделям на них. В задачах регрессии решающие правила для разделения определяются таким образом, чтобы минимизировать среднеквадратичную ошибку между выходом дерева и наблюдаемым выходом.RF-модель обучает каждое дерево решений на другом наборе точек данных, полученных путем выборки обучающих данных с заменой (или начальной загрузкой). Кроме того, каждое дерево может также учитывать различное подмножество входных характеристик, выбранных случайным образом. Окончательный результат случайного леса получается путем агрегирования (или объединения) результатов всех деревьев решений. Для задач регрессии агрегация выполняется по среднему значению. На рисунке 2 показана схема RF-регрессора.
Ансамблевый характер РФ дает несколько преимуществ (Breiman, 2001; Louppe, 2015).Во-первых, это снижает склонность RF к переобучению, несмотря на восприимчивость отдельных деревьев к переобучению (Segal, 2004). Для задач регрессии переобучение относится к низким значениям среднеквадратичной ошибки для обучающих данных и высоким значениям среднеквадратичной ошибки для тестовых данных. Во-вторых, он позволяет оценить относительную важность переменной (которая в данной работе относится к опорной станции) для прогнозирования выходных данных. Обычно это делается путем определения того, как часто переменная используется для разделения входного пространства функций по всем деревьям.В-третьих, ансамблевой характер РФ позволяет не откладывать тестовый набор. Поскольку входные данные для каждого дерева решений получают путем начальной загрузки, данные без выборки могут использоваться для оценки ошибки обобщения. Кроме того, RF не требует обширной настройки гиперпараметров по сравнению с другими подходами ML (Ahmad et al., 2017).
В этом исследовании мы реализуем RF с помощью модуля Python scikit-learn (Pedregosa et al., 2011). Данные об осадках с опорных станций действуют как входные, а данные об осадках на целевой станции указываются в качестве выходных.В отличие от типичных подходов к пространственной интерполяции, мы не указываем расстояния между опорной и целевой станциями. Расстояния являются статическими переменными, и их влияние на динамические зависимости от осадков изучается как постоянная систематическая ошибка, независимо от того, указаны они явно или нет.
Обзор численных экспериментов
Чтобы выяснить, содержат ли станции с неполными записями информацию, которая может улучшить пространственную интерполяцию, мы разработали три набора численных экспериментов: базовый, последовательный и непоследовательный условный расчет.В базовом условном исчислении каждая станция в нашем наборе данных моделируется с использованием оставшихся станций в качестве опорных станций. Это представляет собой верхнюю границу эффективности последовательного вменения, когда у нас есть несколько станций с неполными записями. Базовое вменение предоставляет статистические данные, помогающие оценить эффективность последовательного вменения. При последовательном вменении подмножество станций в нашем наборе данных помечается как искусственно неполное. Для каждой станции в искусственно неполной подгруппе 20% значений случайным образом помечаются как «отсутствующие».Недостающие значения рассчитываются путем использования других искусственно неполных станций в подмножестве в дополнение к использованию станций за пределами подмножества. Наконец, при непоследовательном вменении учитывается то же искусственно неполное подмножество, что и при последовательном вменении, а пропущенные значения вменяются с использованием только станций, находящихся за пределами подмножества. Мы подробно описываем три набора численных экспериментов в разделах «Численные эксперименты: базовый расчет» и «Численные эксперименты: последовательный и непоследовательный расчет».Перед описанием каждого из этих экспериментов было бы поучительно обсудить наш критерий эффективности для оценки вменения.
Оценка импутации: эффективность Нэша-Сатклиффа (NSE)
Мы оценили общую эффективность вменения путем вычисления эффективности Нэша-Сатклиффа ( NSE ) на тестовых данных, предоставленных
. NSE = 1-∑i = 1N (yio-yim) 2∑i = 1N (yio-yo¯) 2 (1), где N — размер тестового набора, yio — i -ое наблюдаемое значение, yim — соответствующее смоделированное значение, а yo¯ — среднее всех наблюдаемых значений в тестовом наборе.
NSE — это нормализованная статистическая мера, которая определяет относительную величину остаточной дисперсии (или шума) модели по сравнению с дисперсией измеренных данных. Он безразмерен и находится в диапазоне от −∞ до 1. Значение NSE , равное 1, означает, что смоделированные (в нашем случае условно вычисленные) значения полностью соответствуют наблюдениям; значение NSE , равное 0, означает, что смоделированные значения хороши ровно настолько, насколько хороши средние значения наблюдений; и отрицательное значение NSE означает, что среднее значение наблюдений является лучшим предсказателем, чем смоделированные значения.Положительные значения NSE желательны, а более высокие значения предполагают большую точность модели (вменения).
Двумя другими общими статистическими мерами для оценки общей точности прогноза являются коэффициент корреляции продукт-момент Пирсона R и статистика Колмогорова-Смирнова. В то время как первый оценивает время и форму смоделированного временного ряда, последний оценивает его кумулятивное распределение. Гупта и др. (2009) разложили NSE на три отдельных компонента, представляющих корреляцию, систематическую ошибку и меру относительной изменчивости смоделированных и наблюдаемых значений.Они показали, что NSE относится к способности модели воспроизводить среднее значение и дисперсию гидрологических наблюдений, а также время и форму временных рядов. По этим причинам использование NSE было предпочтительнее других статистических мер для оценки точности вменения.
Мы также оценили эффективность последовательного вменения для прогнозирования событий, связанных с засухой и экстремальной влажностью. Это связано с тем, что подходы пространственной интерполяции имеют тенденцию переоценивать количество засушливых явлений и недооценивать интенсивность экстремальных влажных явлений (Simolo et al., 2010; Тегаварапу, 2020). Обычной практикой является рассмотрение дня как засушливого явления, если суточное количество осадков не превышает порогового значения в 1 мм (Hertig et al., 2019). Мы рассмотрели порог в 2,54 мм, поскольку это разрешение нашего набора данных. Мы считали день экстремально влажным явлением, если суточное количество осадков превышало 95-й процентиль от всего рекорда осадков для данной станции (Zhai et al., 2005; Hertig et al., 2019). Чтобы оценить точность прогноза засушливых явлений, мы вычислили процентную ошибку или процент дней, которые были правильно смоделированы как засушливые дни.Чтобы оценить точность прогнозов экстремальных влажных явлений, мы вычислили значений NSE исключительно для дней, которые превышали 95-й процентиль суточных значений осадков; это позволило нам оценить прогнозируемую величину. В дальнейшем мы используем аббревиатуру NSEE для обозначения NSE для экстремальных событий.
Численные эксперименты: расчет исходного уровня
Для нашей первой серии численных экспериментов мы провели вменение базовой линии, где каждая станция в нашем наборе данных моделировалась с использованием оставшихся станций в качестве опорных станций.Наш набор данных состоит из 97 станций с полными записями (как показано на Рисунке 1 и Таблице 1). Этот набор численных экспериментов является тестом метода вменения на основе RF и обеспечивает верхнюю границу производительности алгоритма последовательного вменения, обсуждаемого в разделе Алгоритм последовательного вменения. Что еще более важно, он предоставляет оценки дисперсии для моделирования каждой станции, которые будут использоваться для оценки эффективности алгоритма последовательного вменения. В частности, каждая станция в нашем наборе данных рассматривалась, в свою очередь, как целевая станция (или выход модели), а остальные станции действовали как ссылки (или входные объекты).Для каждой целевой станции 80% данных были случайным образом выбраны для обучения, а оставшиеся 20% использовались для тестирования. Набор тестов фактически действовал как недостающие данные, подлежащие условному исчислению. Мы провели это упражнение по 15 раз для каждой станции. Перед этими прогонами мы также провели независимый набор базовых прогонов для настройки гиперпараметров RF.
Алгоритм последовательного вменения
Пространственная интерполяция на основе ML изучает многомерные отношения между опорными станциями и целевой станцией.Исследования показали, что для обеспечения надежности результатов вменения данные на опорных станциях должны иметь сильную корреляцию с данными на целевой станции (например, Teegavarapu and Chandramouli, 2005; Yozgatligil et al., 2013). Однако пространственная интерполяция на основе ML исключает станции с неполными записями, даже если они могут быть сильно коррелированы с целевой станцией. Здесь мы разрабатываем методику (т. Е. Последовательного вменения), в которой станции, которые рассчитываются первыми, используются в качестве опорных станций для вменения последующих станций.В дальнейшем мы будем называть станцию с полной записью «полной станцией», а станцию с неполной записью — «неполной станцией». Алгоритм последовательного вменения включает следующие шаги:
1. Добавьте все готовые станции в список опорных станций.
2. Рассчитайте корреляции между незавершенными станциями и опорными станциями.
3. Выберите незавершенную станцию, имеющую самую высокую совокупную корреляцию с опорными станциями.
4. Внесите недостающие значения для станции, выбранной на шаге 3, используя все опорные станции.
5. Добавьте условную станцию в список опорных станций.
6. Повторяйте шаги 2–4 до тех пор, пока не будут вычислены пропущенные значения всех пикетов.
В этом исследовании корреляция относится к коэффициенту корреляции продукта-момента Пирсона, который в дальнейшем обозначается как R . Мы выбрали эту меру из-за ее простоты. Шаг 3 требует вычисления совокупной корреляции каждой незавершенной станции с опорными станциями.Этот шаг предполагает, что неполная станция, имеющая наивысшую совокупную корреляцию с опорными станциями, будет иметь наиболее точное вменение. Мы проверим это предположение в разделе «Результаты». Чтобы определить подходящую совокупную меру корреляции для Шага 3, мы реализовали следующую процедуру:
и. Вычислите корреляции целевой станции с каждой из опорных станций.
ii. Отсортируйте значения корреляции в порядке убывания (от наибольшего к наименьшему).
iii.Вычислите совокупную сумму отсортированных корреляций. Обозначим каждую частичную сумму как S i , где нижний индекс i относится к первым отсортированным корреляциям i .
i варьируется от 1 до N , а N — количество опорных станций в наборе данных. Каждый S i представляет собой совокупную меру корреляции между целевой станцией и опорными станциями. Например, S 2 относится к сумме первых двух отсортированных корреляций, S 3 относится к сумме первых трех отсортированных корреляций и так далее.Мы вычислили значения S i для всех 97 станций в нашем наборе данных и сравнили их значения с NSE , определенными из базовых условных расчетов. S i , имеющий самую высокую корреляцию с NSE , был выбран для количественной оценки совокупной корреляции (для Шага 3 последовательного вменения). Для практических приложений описанная выше процедура для определения соответствующей совокупной корреляции может быть реализована с использованием непоследовательных вменений.Обратите внимание, что могут быть предусмотрены и другие агрегированные показатели (например, взаимная информация, корреляция Спирмена), но мы стремились выбрать тот, который относительно прост, чтобы сосредоточить наше внимание на подходе последовательного вменения.
Численные эксперименты: последовательное и непоследовательное вычисление
Чтобы исследовать преимущества последовательного вменения, мы разделили наш набор данных из 97 полных станций на пять (почти) подмножеств одинакового размера и присвоили им номера от 1 до 5, как показано на рисунке 3. Разделение на подмножества было случайным.Затем мы рассмотрели четыре различных сценария, каждый из которых пометил определенные подмножества как искусственно неполные. Они показаны в таблице 2.
Рисунок 3 . Разделение комплектных станций (см. Рисунок 1) на пять подмножеств.
Таблица 2 . Сценарии для последовательного и непоследовательного вменения.
В записях об осадках обычно отсутствуют значения в результате случайных механизмов, таких как неисправность оборудования, перебои в работе сети и стихийные бедствия.Другими словами, вероятность того, что количество осадков отсутствует, не зависит от самого количества осадков. Эти случайные механизмы также предполагают, что местоположение или физиография метеорологической станции не имеют никакого отношения к тому, является ли ее запись полной или неполной. Этот механизм , который случайно отсутствует, (Schafer and Graham, 2002) отражается в нашем решении создавать подмножества случайным образом и позволяет нам оценить подход последовательного вменения в более общих условиях.
На рисунках 4A – D показано разделение нашего набора данных на полные и искусственно неполные подмножества для каждого из сценариев, перечисленных в таблице 2.В сценарии 1 77 записей из 97 были помечены как искусственно неполные. В каждом последующем сценарии было меньше записей, помеченных как искусственно неполные, что привело к сценарию 4, в котором было всего 19 таких записей. Эти сценарии были разработаны для изучения того, как доля неполных записей влияет на условное исчисление. Мы ожидали, что последовательное вменение будет более полезным, поскольку доля неполных записей в наборе данных увеличится.
Рисунок 4 . Искусственно неполные и полные наборы данных для различных сценариев последовательного и непоследовательного вменения.Примечание. Цветовая карта высоты такая же, как на рисунках 1, 3. (A) Сценарий 1. (B) Сценарий 2. (C) Сценарий 3. (D) Сценарий 4.
Станции, принадлежащие к искусственно неполным подмножествам, имели 20% данных, отмеченных как отсутствующие. Предыдущие исследования по вменению рассматривали два широких механизма отметки пропущенных значений. Один подход включает случайную маркировку пропущенных значений (например, Teegavarapu and Chandramouli, 2005; Kim and Pachepsky, 2010), в то время как другой подход предполагает, что пропущенные значения образуют непрерывные промежутки во времени (например, Teegavarapu and Chandramouli, 2005; Kim and Pachepsky, 2010).г., Симоло и др., 2010; Yozgatligil et al., 2013). Поскольку пространственная интерполяция не предполагает временной автокорреляции и не зависит от метки времени данных, механизм маркировки пропущенных значений не имеет значения. Для простоты мы предположили, что значения отсутствовали совершенно случайно. Пропущенные значения были вменены с использованием последовательного и непоследовательного вменения; оба этих вменения были сопоставлены и позволили нам выделить преимущества последовательного вменения. В частности, мы вычислили NSE , соответствующее как последовательным, так и непоследовательным запускам, и вычислили изменение (или увеличение) Δ в NSE для каждой станции следующим образом:
ΔNSE = NSEпоследовательный-NSE непоследовательный (2)Для оценки улучшения прогнозирования экстремальных влажных явлений, NSE в Уравнении 2 был заменен на NSEE .Чтобы оценить улучшение прогнозов засушливых дней, мы вычислили процентную ошибку (то есть процент дней, которые были правильно смоделированы как засушливые дни), соответствующую как последовательным, так и непоследовательным прогонам. Затем мы вычислили изменение (или уменьшение) Δ в процентной ошибке ( PE ) следующим образом:
ΔPE = PE непоследовательный-PE последовательный (3)Результаты
Исходный расчет
Мы выполнили базовое вменение для оценки статистики для оценки эффективности алгоритма последовательного вменения.На рисунках 5A – C показаны результаты условных расчетов исходных условий для отсутствующих данных для всех станций. Каждая станция была смоделирована 15 раз с различным разделением обучающих и тестовых (отсутствующих) данных, и точность каждой модели для вменения была определена количественно путем вычисления NSE на тестовых данных. Это дало нам распределение значений NSE (вместо одного значения) для восстановления каждой станции, на основании чего мы оценили среднее значение μ и стандартное отклонение σ NSE для каждой станции.Для наглядности мы обозначаем среднее и стандартное отклонение конкретной станции s как μ s и σ s соответственно. На рисунке 5A компилируются μ s для всех станций и отображаются в виде гистограммы. Примерно 95% станций имеют среднее значение NSE > 0,5, а примерно две трети станций имеют среднее значение NSE > 0,65. На рисунке 5B компилируются μ s и σ s для всех станций и показаны их в виде диаграммы рассеяния.Мы видим, что для каждой станции значения NSE имеют небольшое стандартное отклонение относительно их среднего значения. На рисунке 5C показано геопространственное распределение μ s .
Рисунок 5 . Результаты исходных условных расчетов недостающих данных. (A) Распределение среднего NSE (μ s ), (B) разброс среднего (μ s ) и стандартное отклонение (σ s ) NSE , (C) геопространственное распределение среднего NSE (μ s ).
На рис. 6 показаны образцы диаграмм разброса истинных и прогнозируемых осадков по данным испытаний с использованием исходных условных значений. Пунктирная линия показывает линию под углом 45 градусов, которая соответствует точному совпадению (т. Е. NSE = 1) между истинным и прогнозируемым значениями. Обратите внимание, что наш набор данных имеет разрешение 0,1 дюйма или 2,54 мм, что приводит к видимым скачкам на оси абсцисс (или «истинным значениям»). Подрисунок (а) соответствует относительно высокому значению NSE (~ 0,8), а подрисунок (b) соответствует относительно низкому значению NSE (~ 0.5). Из этих графиков видно, что для высокого значения NSE относительный разброс меньше и ближе к пунктирной линии.
Рисунок 6 . Примерные графики разброса истинных и прогнозируемых осадков на данных испытаний с использованием исходных значений: (A) NSE = 0,79, (B) NSE = 0,52. Обратите внимание, что скачки истинных значений связаны с грубым разрешением (2,54 мм) набора данных.
Совокупная корреляция между целевыми незавершенными станциями и опорными станциями
Чтобы определить подходящую совокупную меру корреляции для последовательного вменения, мы проанализировали результаты базового вменения.В частности, мы вычислили значения S i для всех целевых станций (то есть Sis) и сравнили их значения с соответствующими μ s . Поскольку сильная корреляция с опорными станциями приводит к более точному вменению, мы ожидаем, что S i будет положительно коррелировать с μ, независимо от значения i . Как определено в разделе «Алгоритм последовательного вложения», S i для целевой станции представляет собой сумму первых i отсортированных корреляций с опорными станциями.Для ясности мы обозначаем Sis для обозначения S i для конкретной целевой станции s . На рисунке 7A показан график рассеяния S2s и μ s для всех станций в нашем наборе данных (как показано на рисунке 1 и в таблице 1). Коэффициент корреляции составил 0,95. Точно так же мы вычислили корреляции между Sis и μ s для всех значений i [обозначено как Corr (μs, Sis)] и нанесли их на рисунок 7B. Эти результаты показывают, что корреляция между Sis и μ s выше для более низких значений i .На основе рисунка 7 мы использовали S 2 в качестве меры сходства для последовательного вменения. Для практических приложений подходящая мера подобия может быть определена путем анализа результатов непоследовательных вменений.
Рисунок 7 . Количественная оценка сходства между целевой и опорной станциями: (A) график рассеяния между S2s и μ с (среднее значение NSE ) с линейной аппроксимацией, (B) корреляции между μ с и Sis как функция от i (примечание: максимальное значение корреляции).
Последовательное вменение
Для реализации алгоритма последовательного вменения искусственно неполные подмножества в каждом из четырех сценариев были реконструированы с использованием последовательного и непоследовательного вменения (см. Раздел «Численные эксперименты: последовательное и непоследовательное вменение»). Для данной станции считалось, что последовательное вменение привело к значительному улучшению, если соответствующее Δ s NSE (т. Е. Δ NSE для станции s , вычисленное с использованием уравнения 2) было больше σ s по оценкам из исходных условий.Это было сделано для обеспечения того, чтобы изменение в NSE во время последовательного вменения не могло быть связано с шумом.
На рисунках 8A – 11A показаны результаты последовательного вменения для сценариев 1–4, соответственно, со значениями NSE для каждой станции, соответствующей последовательному вменению. Значения нанесены на график в порядке последовательного вменения и наложены на базовые значения NSE . Базовая линия Кривая NSE центрирована по ее среднему значению, а толщина представляет собой ее стандартное отклонение (как показано на рисунке 5B).Базовая кривая обеспечивает верхнюю границу эффективности алгоритма последовательного вменения. На рисунках 8B – 11B показано изменение NSE для каждого приращения в последовательности по сравнению с непоследовательным вменением.
Рисунок 8 . Результаты последовательного вменения для Сценария 1. (A) NSE , полученное во время последовательного вменения, построенное как функция приращения в последовательности и наложенное на базовые значения NSE , (B) Изменение Δ NSE для каждого приращения в последовательность по сравнению с непоследовательным вменением.Оранжевые точки считаются значительными улучшениями (т.е. Δ s NSE > σ s ).
Рисунок 9 . Результаты последовательного вменения для сценария 2; заголовки (A, B) такие же, как на рисунке 8.
Рисунок 10 . Результаты последовательного вменения для сценария 3; заголовки (A, B) такие же, как на рисунке 8.
Рисунок 11 . Результаты последовательного вменения для сценария 4; заголовки (A, B) такие же, как на рисунке 8.
Результаты сценариев приведены в Таблице 3.
Таблица 3 . Сводка результатов для сценариев 1–4 для последовательного и непоследовательного вменения.
На рис. 12 показаны графики разброса истинных и прогнозируемых осадков на данных испытаний для станции, которые показали значительное улучшение во время последовательного вменения в Сценарии 1. На рисунке (а) показан разброс для непоследовательного вменения, а на подрисунке (b) показан разброс для последовательное вменение.Пунктирная линия показывает линию под углом 45 градусов, которая соответствует точному совпадению (т. Е. NSE = 1) между истинным и прогнозируемым значениями. Напомним, что наш набор данных имеет разрешение 0,1 дюйма или 2,54 мм, что приводит к видимым скачкам по оси абсцисс (или «истинным значениям»).
Рисунок 12 . Диаграммы разброса истинных и прогнозируемых осадков на тестовых данных для станции, которые показали значительное улучшение во время последовательного вменения в Сценарии 1: (A) непоследовательное вменение, (B) последовательное вменение.Скачки истинных значений связаны с грубым разрешением (2,54 мм) набора данных.
На рисунках 13, 14 показаны результаты последовательного вменения для прогнозирования засушливых [субфигурок (a)] и экстремально влажных [субфигурок (b)] событий для сценариев 1, 2. Значения нанесены на график в порядке последовательного вменения и обозначают изменение. в PE или NSEE во время последовательного вменения по сравнению с непоследовательным вменением. Значения Δ обозначены цветом в соответствии с результатами на рисунках 8–11.Результаты для сценариев 3, 4 не показаны для краткости.
Рисунок 13 . Результаты последовательного вменения для прогнозирования сухих событий (A) и экстремально влажных (B) для Сценария 1. Оранжевые точки соответствуют значительным улучшениям в общих прогнозах, как показано на Рисунке 8.
Рисунок 14 . Результаты последовательного вменения для прогнозирования сухих событий (A) и экстремально влажных (B) для Сценария 2.Оранжевые точки соответствуют значительным улучшениям в общих прогнозах, как показано на Рисунке 9.
Обсуждение
На рисунке 5A показано среднее значение NSE (μ s ) для всех станций в виде гистограммы. Как отмечалось ранее, примерно 95% станций имеют μ s > 0,5, а примерно две трети станций имеют μ s > 0,65. Moriasi et al. (2007) проанализировали более двадцати исследований, связанных с моделированием водоразделов, и рекомендовали, чтобы для месячного временного шага модели могли оцениваться как «удовлетворительные», если NSE > 0.5; более низкий порог был рекомендован для ежедневных временных шагов. Следовательно, наш метод пространственной интерполяции для подстановки пропущенных значений можно считать эффективным.
Геопространственное распределение среднего значения NSE на рисунке 5C предполагает, что более низкие значения NSE имеют тенденцию возникать, когда в непосредственной близости находится более низкая плотность опорных станций. Это связано с тем, что на удаленных станциях характеры осадков, как правило, отличаются от характеристик целевой станции, что снижает вероятность того, что они будут надежными предсказателями осадков на целевой станции.Это наблюдение является причиной популярности метода взвешивания обратных расстояний.
Хотя близость опорных станций может считаться необходимой для точного условного расчета значений осадков, этого недостаточно (например, Тегаварапу и Чандрамули, 2005). Мы показываем пример этого на рисунке 15, который представляет собой модифицированную версию рисунка 5C со стрелкой, обозначающей станцию. Отмеченная станция имеет низкий показатель NSE , несмотря на то, что опорные станции находятся в непосредственной близости. Это связано с тем, что ближайшие к нему опорные станции имеют существенно разные значения высоты (для справки, отмеченная станция имеет высоту 2113 м, а ближайшая станция — 3085 м).Для точной пространственной интерполяции в целевом местоположении опорные станции должны иметь физико-географическое сходство с целью. Факторы, влияющие на физико-географическое сходство, включают местоположение, высоту, близость берега, ориентацию топографических граней, вертикальный атмосферный слой, топографическое положение и орографическую эффективность местности (Daly et al., 2008). Обратите внимание, что априори неизвестно, как эти различные факторы взаимодействуют друг с другом и впоследствии влияют на физико-географические свойства целевой и опорной станций.Выбор опорных станций на основе заранее определенных физико-географических критериев может привести к непреднамеренному исключению станций, которые имеют высокую корреляцию с целевой станцией. В целом, любой заранее определенный физико-географический критерий будет лишен гибкости при выборе станций и может не дать наилучшего результата вменения.
Рисунок 15 . Геопространственное распределение среднего значения NSE (μ s ) с красной стрелкой, обозначающей станцию с низким значением NSE .
На рис. 6 показаны образцы диаграмм разброса истинных и прогнозируемых осадков по данным испытаний с использованием исходных условных значений. Из этих графиков видно, что для высокого значения NSE относительный разброс меньше. Кроме того, мы также можем наблюдать, что даже для высокого значения NSE существует тенденция к завышению прогнозов количества сухих дней и недооценке интенсивности экстремальных влажных явлений. Для рисунка (а) порог 95-го процентиля составляет 15,24 мм, а для рисунка (b) — 12.7 мм. Напомним, что мы определяем события, превышающие порог 95-го процентиля, как экстремальные влажные события.
Рисунки 8–11 демонстрируют преимущества последовательного вменения по сравнению с непоследовательным вменением. В дальнейшем мы будем использовать фразу «незавершенная станция» для обозначения искусственно неполной станции. Рисунки 8–11 показывают, что по мере увеличения доли незавершенных станций возрастает процент станций, получающих выгоду от последовательного вменения. Δ NSE значения, которые соответствуют значительным улучшениям (т.е.е., Δ s NSE > σ s ) имеют тенденцию быть выше, чем те, которые этого не делают. Значение Δ NSE , которое не соответствует значительному улучшению (т. Е. Δ s NSE ≤ σ s ), означает, что ранее вычисленные станции не добавляют дополнительную информацию для пространственной интерполяции. Это может быть по двум причинам: (i) ранее рассчитанные станции слабо коррелированы с целевой станцией или (ii) ранее рассчитанные станции показывают сильную корреляцию с целевой станцией, но также демонстрируют сильную корреляцию со станциями, уже входящими в полное подмножество. .Вторая причина может произойти, если существует группа станций с аналогичной физиографией и сходным режимом выпадения осадков. Последовательное вменение станций в кластере может не добавить новую информацию, если другие станции в кластере уже имеют полные записи. Например, рассмотрим сценарий 4, где доля незавершенных станций мала, а последовательное вменение не дает никаких преимуществ. На рисунке 4D показано, что неполные станции в сценарии 4 либо изолированы (и могут быть слабо коррелированы с другими неполными станциями), либо являются частью кластера с несколькими полными записями.Рисунки 3, 4 показывают, что станции в нашем наборе данных имеют тенденцию формировать кластеры; Эти цифры помогают нам понять, почему мы наблюдаем меньший процент станций, получающих выгоду от последовательного вменения, поскольку доля незавершенных станций уменьшается. Тенденция к кластеризации подразумевает, что при наличии небольшого подмножества незавершенных станций высока вероятность того, что ранее рассчитанные станции не добавляют никакой дополнительной информации для пространственной информации.
На рис. 12 показаны диаграммы разброса истинных и прогнозируемых осадков по тестовым данным для станции, которые показали значительное улучшение во время последовательного вменения в Сценарии 1.Как также отмечено на рисунке 6, эти графики помогают визуализировать, что по мере увеличения значения NSE во время последовательного вменения относительный разброс уменьшается, демонстрируя улучшенную пространственную интерполяцию. Рисунки 13, 14 демонстрируют, что преимущества последовательного вменения также распространяются на прогнозирование засушливых явлений и экстремальных явлений, несмотря на основные ограничения пространственной интерполяции, как отмечено в разделе «Оценка вменения: эффективность Нэша Сатклиффа» (NSE). Мы наблюдаем общую тенденцию, заключающуюся в том, что улучшения (или значения Δ) имеют тенденцию быть выше для станций, которые соответствуют значительным общим улучшениям (т.е., Δ s NSE > σ s ), как описано выше.
Результаты для агрегированных корреляций (рисунок 7B) показывают, что корреляция между S i (т.е. частичная сумма первых отсортированных корреляций i ) и NSE высока для более низких значений i , и становится все слабее по мере увеличения i . Это означает, что для надежного условного исчисления наличие нескольких сильно коррелированных ссылок более важно, чем наличие множества ссылок со слабой корреляцией.Это подчеркивает, почему последовательное вменение является мощным методом, поскольку использование даже одной неполной станции, которая сильно коррелирует с целевой станцией, может значительно улучшить. Мы проиллюстрируем это далее на рисунке 16, где мы показываем значения S 2 для всех станций во время последовательного вменения в сценариях 1 и 2. Как и ожидалось, значения S 2 во время последовательного вменения выше. чем при непоследовательном вменении, что согласуется с улучшенным вменением.
Рисунок 16 . Сравнение S 2 для последовательных и непоследовательных вменений: (A) Сценарий 1 и (B) Сценарий 2.
Важно отметить, что станции, вмененные ранее во время последовательного вменения, как правило, имеют более высокое значение NSE , что указывает на более надежное вменение. Значения NSE имеют тенденцию к уменьшению в последовательности вменения. Это в первую очередь следствие порядка, в котором мы выбираем станции для последовательного вменения.Станции, которые вменяются ранее в последовательности, имеют более высокую совокупную корреляцию с базовыми наборами данных, что означает, что недостающие данные будут моделироваться с большей точностью. Это можно проверить, наблюдая за тенденцией базовой кривой NSE на рисунках 8A – 11A, которая также показывает уменьшение значений NSE вдоль последовательности вменения. Станции, которые вменяются позже в последовательности, будут иметь более низкое значение NSE , потому что они изначально имеют более низкое базовое значение NSE ; они все еще могут демонстрировать значительные улучшения во время последовательного вменения по сравнению с непоследовательным вменением (как показано на рисунках 8B – 10B).
Наконец, мы отмечаем, что на производительность последовательного вменения может отрицательно повлиять, если пропуски данных между станциями возникают синхронно. В частности, это могло произойти, если станция, находившаяся ранее в последовательности, была плохо условно импортирована и имеет высокую корреляцию со станцией, условно установленной позже в последовательности. Однако предлагаемый последовательный подход все еще может быть реализован, и этот подход будет превосходить или в равной степени соответствовать непоследовательному подходу.
Выводы
Алгоритмы пространственной интерполяции обычно требуют опорных станций с полными записями; поэтому станции с недостающими данными или неполными записями не используются.Это ограничение имеет решающее значение для алгоритмов машинного обучения, где неполные записи препятствуют обучению на основе данных многомерных отношений. В этом исследовании мы предложили новый алгоритм, называемый алгоритмом последовательного вменения, для вменения недостающих данных об осадках временного ряда. Мы предположили, что станции с неполными записями содержат информацию, которую можно использовать для улучшения пространственной интерполяции. Мы подтвердили эту гипотезу, используя алгоритм последовательного вменения, который был включен в метод пространственной интерполяции на основе случайных лесов.
Мы продемонстрировали преимущества последовательного вменения по сравнению с непоследовательным вменением. В частности, мы показали, что последовательное вменение помогает использовать другие неполные записи для более надежного вменения. Мы заметили, что по мере увеличения доли станций с неполными записями возрастает процент станций, получающих выгоду от последовательного вменения. С другой стороны, если доля станций с неполными записями мала, высока вероятность того, что последовательное вменение не добавляет никакой дополнительной информации для пространственной информации.Мы также заметили, что преимущества последовательного вменения переносятся на улучшенные прогнозы засушливых явлений и экстремальных явлений. Наконец, результаты показали, что для надежного условного исчисления наличие нескольких сильно коррелированных ссылок более важно, чем наличие множества ссылок со слабой корреляцией. Это подчеркивает, почему последовательное вменение является мощным методом, поскольку включение даже одной неполной станции, которая сильно коррелирует с целевой станцией, может значительно улучшить вменение.
Хотя мы продемонстрировали последовательное вменение с использованием случайных лесов, его можно реализовать с помощью других методов пространственной интерполяции на основе машинного обучения, которые можно найти в литературе. Кроме того, мы представили новый, но общий алгоритм для вменения недостающих записей во временные ряды суточных осадков, который потенциально применим и к другим метеорологическим переменным.
Заявление о доступности данных
В данном исследовании были проанализированы общедоступные наборы данных. Эти данные можно найти здесь: https: // www.wcc.nrcs.usda.gov.
Авторские взносы
UM и DD разработали и разработали исследование. UM получил данные, разработал новый алгоритм, провел все численные эксперименты и проанализировал результаты. DD и JB предоставили информацию о методах и статистическом анализе. Компания BF предоставила информацию о сборе данных и анализе временных рядов. DD помог проанализировать результаты. SP и CS внесли свой вклад в концепцию исследования и несли ответственность за общее руководство и планирование. UM взял на себя инициативу в написании рукописи.Все авторы предоставили критические отзывы и помогли сформировать исследование, анализ и рукопись.
Финансирование
Эта работа финансировалась проектом ExaSheds, который поддерживался Министерством энергетики США, Управлением науки, Управлением биологических и экологических исследований, Отделом наук о Земле и экологических системах, Программа управления данными, номер награды DE-AC02-05Ch21231 .
Конфликт интересов
Авторы заявляют, что исследование проводилось при отсутствии каких-либо коммерческих или финансовых отношений, которые могут быть истолкованы как потенциальный конфликт интересов.
Сноска
Список литературы
Акок, М.С., и Пачепский, Ю.А. (2000). Оценка недостающих погодных данных для сельскохозяйственных симуляций с использованием группового метода обработки данных. J. Appl. Meteorol. 39, 1176–1184. DOI: 10.1175 / 1520-0450 (2000) 039 <1176: EMWDFA> 2.0.CO; 2
CrossRef Полный текст | Google Scholar
Адхикари Р. и Агравал Р. К. (2013). Вводное исследование моделирования и прогнозирования временных рядов . Саарбрюккен: Академическое издательство LAP LAMBERT.
Google Scholar
Ахмад, М. В., Муршед, М., и Резгуи, Ю. (2017). Деревья против нейронов: сравнение случайного леса и ИНС для прогнозирования энергопотребления здания с высоким разрешением. Energy Build. 147, 77–89. DOI: 10.1016 / j.enbuild.2017.04.038
CrossRef Полный текст | Google Scholar
Бокс, Г. Э., и Дженкинс, Г. М. (1976). Анализ временных рядов. Прогнозирование и контроль. Ряды Холдена-Дэя в анализе временных рядов .Сан-Франциско, Калифорния: Холден-Дэй.
PubMed Аннотация
Чен, Л., Сюй, Дж., Ван, Г., и Шен, З. (2019). Сравнение методов множественного вменения для вменения рядов данных об осадках и их применения в моделях водосборов. J. Hydrol. 572, 449–460. DOI: 10.1016 / j.jhydrol.2019.03.025
CrossRef Полный текст | Google Scholar
Чуан, З. Л., Дени, С. М., Фам, С.-Ф., и Исмаил, Н. (2019). Эффективность модели вероятностного анализа главных компонентов и алгоритма максимизации ожиданий при обработке отсутствующих данных о ежедневных осадках. Asia-Pac. J. Atmos. Sci . 56, 119–129. DOI: 10.1007 / s13143-019-00135-8
CrossRef Полный текст | Google Scholar
Кулибали П., Эвора Н. Д. (2007). Сравнение методов нейросети для заполнения недостающих суточных метеорологических записей. J. Hydrol. 341, 27–41. DOI: 10.1016 / j.jhydrol.2007.04.020
CrossRef Полный текст | Google Scholar
Дейли К., Халблейб М., Смит Дж. И., Гибсон В. П., Доггетт М. К., Тейлор Г. Х. и др.(2008). Физиографически чувствительное картографирование климатологической температуры и осадков по всей территории Соединенных Штатов. Внутр. J. Climatol. 28, 2031–2064. DOI: 10.1002 / joc.1688
CrossRef Полный текст | Google Scholar
Деви, Г. К., Ганасри, Б. П., и Дваракиш, Г. С. (2015). Обзор гидрологических моделей. Aquat. Процедуры. 4, 1001–1007. DOI: 10.1016 / j.aqpro.2015.02.126
CrossRef Полный текст | Google Scholar
Двиведи, Д., Арора, Б., Стифел, К. И., Даффлон, Б., и Верстег, Р. (2018). Горячие точки и горячие моменты азота в прибрежном коридоре. Водные ресурсы. Res. 54, 205–222. DOI: 10.1002 / 2017WR022346
CrossRef Полный текст | Google Scholar
Двиведи Д., Стифел И. К., Арора Б. и Бишт Г. (2017). Влияние гипорейного потока внутри меандра на круговорот азота. Процедура. Планета Земля. Sci. 17, 404–407. DOI: 10.1016 / j.proeps.2016.12.102
CrossRef Полный текст | Google Scholar
Гао, Ю., Мерц, К., Лишайд, Г., и Шнайдер, М. (2018). Обзор обработки недостающих гидрологических данных. Environ. Earth Sci. 77:47. DOI: 10.1007 / s12665-018-7228-6
CrossRef Полный текст | Google Scholar
Горшенин А., Лебедева М., Лукина С., Яковлева А. (2019). «Применение алгоритмов машинного обучения для обработки недостающих значений в данных об осадках», в Распределенные компьютерные и коммуникационные сети , ред. В. М. Вишневский, К. Е. Самуйлов и Д.В. Козырев (Cham: Springer International Publishing), 563–577.
Google Scholar
Гупта, Х. В., Клинг, Х., Йилмаз, К. К., и Мартинес, Г. Ф. (2009). Разложение среднеквадратичной ошибки и критериев эффективности NSE: последствия для улучшения гидрологического моделирования. J. Hydrol. 377, 80–91. DOI: 10.1016 / j.jhydrol.2009.08.003
CrossRef Полный текст | Google Scholar
Хасанпур Кашани, М., Динпашох, Ю. (2012). Оценка эффективности различных методов оценки недостающих климатологических данных. Stoch. Environ. Res. Оценка риска. 26, 59–71. DOI: 10.1007 / s00477-011-0536-y
CrossRef Полный текст | Google Scholar
Хертиг, Э., Мараун, Д., Бартоли, Дж., Понграц, Р., Врач, М., Марес, И. и др. (2019). Сравнение методов статистического масштабирования по отношению к экстремальным явлениям в Европе: результаты проверки на совершенном эксперименте-предсказателе ЗНАЧЕНИЯ ДЕЙСТВИЯ СТОИМОСТИ. Внутр. J. Climatol. 39, 3846–3867. DOI: 10.1002 / joc.5469
CrossRef Полный текст | Google Scholar
Хаббард, С.С., Варадхараджан, К., Ву, Ю., Уэйнрайт, Х., и Двиведи, Д. (2020). Новые технологии и радикальное сотрудничество для улучшения прогнозного понимания гидробиогеохимии водоразделов. Hydrol. Процесс . 34, 3175–3182. DOI: 10.1002 / hyp.13807
CrossRef Полный текст | Google Scholar
Хаббард, С.С., Уильямс, К.Х., Агарвал, Д., Бэнфилд, Дж., Беллер, Х., Бускилл, Н. и др. (2018). Ист-Ривер, Колорадо, Водораздел: испытательный полигон горного сообщества для улучшения прогнозного понимания многомасштабной гидролого-биогеохимической динамики. Vadose Zone J. 17, 1–25. DOI: 10.2136 / vzj2018.03.0061
CrossRef Полный текст | Google Scholar
Джахан, Ф., Синха, Н. К., Рахман, М. М., Рахман, М. М., Мондал, М., и Ислам, М. А. (2019). Сравнение методов оценки пропущенных значений в данных об осадках Бангладеш. Теор. Прил. Climatol. 136, 1115–1131. DOI: 10.1007 / s00704-018-2537-y
CrossRef Полный текст | Google Scholar
Ким, Ж.-В., и Пачепский, Ю.А. (2010).Восстановление недостающих данных о суточных осадках с использованием деревьев регрессии и искусственных нейронных сетей для моделирования речного стока SWAT. J. Hydrol. 394, 305–314. DOI: 10.1016 / j.jhydrol.2010.09.005
CrossRef Полный текст | Google Scholar
Ло Прести, Р., Барка, Э., и Пассарелла, Г. (2010). Методология обработки недостающих данных, применяемая к суточным данным об осадках в бассейне реки Канделаро (Италия). Environ. Монит. Оценивать. 160, 1–22. DOI: 10.1007 / s10661-008-0653-3
PubMed Аннотация | CrossRef Полный текст | Google Scholar
Лондхе, С., Диксит П., Шах С. и Нархеде С. (2015). Заполнение недостающих суточных записей осадков с помощью искусственной нейронной сети. ISH J. Hydraul. Англ. 21, 255–264. DOI: 10.1080 / 09715010.2015.1016126
CrossRef Полный текст | Google Scholar
Луппе, Г. (2015). Понимание случайных лесов: от теории к практике (кандидатская диссертация). Льежский университет, Льеж, Бельгия.
Google Scholar
Моралес Мартинес, Х. Л., Орта-Рангель, Ф.А., Сеговия-Домингес, И., Роблес Моруа, А., и Эрнандес, Дж. Х. (2019). Анализ нового метода взвешивания с пространственной интерполяцией для оценки недостающих данных, применяемых к записям об осадках. Atmósfera 32, 237–259. DOI: 10.20937 / ATM.2019.32.03.06
CrossRef Полный текст | Google Scholar
Мориази Д. Н., Арнольд Дж. Г., Лью М. В. В., Бингнер Р. Л., Хармель Р. Д. и Вейт Т. Л. (2007). Руководство по оценке моделей для систематической количественной оценки точности моделирования водосборов. Пер. ASABE 50, 885–900. DOI: 10.13031 / 2013.23153
CrossRef Полный текст | Google Scholar
Оливер М.А., Вебстер Р. (2015). Основные шаги в геостатистике: вариограмма и кригинг . Чам: SpringerBriefs в сельском хозяйстве, Springer International Publishing.
Google Scholar
Паулхус, Дж. Л. Х., и Колер, М. А. (1952). Интерполяция отсутствующих записей об осадках. пн. Погода Rev. 80, 129–133.
Google Scholar
Педрегоса, Ф., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., et al. (2011). Scikit-learn: машинное обучение на Python. J. Mach. Учить. Res. 12, 2825–2830.
Google Scholar
Рамос-Кальзадо, П., Гомес-Камачо, Дж., Перес-Берналь, Ф., и Пита-Лопес, М. Ф. (2008). Новый подход к завершению рядов осадков в наборах климатологических данных: приложение к Андалусии. Внутр. J. Climatol. 28, 1525–1534. DOI: 10.1002 / joc.1657
CrossRef Полный текст | Google Scholar
Шнайдер Т.(2001). Анализ неполных климатических данных: оценка средних значений и ковариационных матриц и вменение пропущенных значений. J. Clim. 14, 853–871. DOI: 10.1175 / 1520-0442 (2001) 014 <0853: AOICDE> 2.0.CO; 2
CrossRef Полный текст | Google Scholar
Шепард Д. (1968). «Функция двумерной интерполяции для данных с нерегулярными интервалами», в Proceedings of the 1968 23rd ACM National Conference (New York City, NY: ACM Press), 517–524.
Google Scholar
Симоло, К., Брунетти, М., Маугери, М., и Нанни, Т. (2010). Улучшение оценки пропущенных значений в суточных рядах осадков с помощью подхода, сохраняющего функцию плотности вероятности. Внутр. Дж. Климатол . 30, 1564–1576. DOI: 10.1002 / joc.1992
CrossRef Полный текст | Google Scholar
Штокман, М., Двиведи, Д., Генц, Р., и Пейсер, С. (2019). Обнаружение ненадлежащего поведения системы управления путем снятия отпечатков пальцев с функциональности программируемого логического контроллера. Внутр. J. Crit. Инфраструктура.Prot. 26: 100306. DOI: 10.1016 / j.ijcip.2019.100306
CrossRef Полный текст | Google Scholar
Тегаварапу Р.С.В. (2020). Расчет осадков с помощью вероятностных методов взвешивания на основе пространственных значений. J. Hydrol. 581: 124447. DOI: 10.1016 / j.jhydrol.2019.124447
CrossRef Полный текст | Google Scholar
Тегаварапу, Р. С. В., и Чандрамули, В. (2005). Усовершенствованные методы взвешивания, детерминированные и стохастические модели на основе данных для оценки недостающих данных об осадках. J. Hydrol. 312, 191–206. DOI: 10.1016 / j.jhydrol.2005.02.015
CrossRef Полный текст | Google Scholar
Варадхараджан К., Файбишенко Б., Хендерсон А., Хендерсон М., Хендрикс В. К., Хаббард С. С. и др. (2019). Проблемы в построении сквозной системы для сбора, управления и интеграции разнообразных данных из сенсорных сетей в водоразделах: уроки обсерватории горного сообщества в Ист-Ривер, Колорадо. Доступ IEEE 7, 182796–182813.DOI: 10.1109 / ACCESS.2019.2957793
CrossRef Полный текст | Google Scholar
Yozgatligil, C., Aslan, S., Iyigun, C., and Batmaz, I. (2013). Сравнение методов вменения пропущенных значений во временных рядах: на примере метеорологических данных Турции. Теор. Прил. Climatol. 112, 143–167. DOI: 10.1007 / s00704-012-0723-x
CrossRef Полный текст | Google Scholar
Захара, Дж. М., Чен, X., Сонг, X., Шуай, П., Мюррей, К., и Реш, К. Т. (2020). Километровые гидрологические обменные потоки в коридоре реки с гравийным дном и их влияние на миграцию растворенных веществ. Водные ресурсы. Res. 56: e2019WR025258. DOI: 10.1029 / 2019WR025258
CrossRef Полный текст | Google Scholar
Чжай П., Чжан X., Ван Х. и Пань X. (2005). Тенденции общего количества осадков и повторяемость экстремальных суточных осадков над Китаем. J. Clim. 18, 1096–1108. DOI: 10.1175 / JCLI-3318.1
CrossRef Полный текст | Google Scholar
Python | Расчет с использованием KNNimputer ()
KNNimputer — это класс scikit-learn, используемый для заполнения или прогнозирования отсутствующих значений в наборе данных.Это более полезный метод, который работает на базовом подходе алгоритма KNN, а не на наивном подходе заполнения всех значений средним или медианой. В этом подходе мы указываем расстояние от отсутствующих значений, которое также известно как параметр K. Пропущенное значение будет предсказано со ссылкой на среднее значение соседей.
Реализуется методом KNNimputer () , который содержит следующие аргументы:
n_neighbors: количество точек данных, которые необходимо включить ближе к отсутствующему значению.
метрика: метрика расстояния, используемая для поиска.
значения — {nan_euclidean. callable} по умолчанию — nan_euclidean
weights: , чтобы определить, на каком основании должны обрабатываться соседние значения.
значения — {uniform, distance, callable} по умолчанию — uniform.
Код: Код Python для иллюстрации класса KNNimputor
импорт KNNImputer
imputer.fit_transform (Before_imputation) |
Вывод: 9 Данные Математика Химия Физика Биология 0 80,0 60,0 NaN 78,0 1 90,0 65,0 57,0 83,0 2 NaN 56,0 80,0 67,0 3 95,0 NaN 78,0 NaN После выполнения вменения [[80.60. 68,5 78.] [90. 65. 57. 83.] [87,5 56. 80. 67.] [95. 58. 78. 72,5]]
Примечание: После преобразования данные становятся массивом numpy.
Вниманию читателя! Не прекращайте учиться сейчас. Изучите все важные концепции машинного обучения с базовым курсом по машинному обучению по доступной для студентов цене и будьте готовы к работе в отрасли.
Правило 1.10: Вменение конфликта интересов: Общее правило
Отношения между клиентом и юристом(a) Хотя юристы связаны с фирмой, ни один из них не должен сознательно представлять клиента, если любому из них, практикующему в одиночку, запрещается это делать в соответствии с Правилами 1.7 или 1.9, кроме
(1) запрет основан на личных интересах дисквалифицированного юриста и не представляет значительного риска существенного ограничения представительства клиента остальными юристами в фирме; или
(2) запрет основан на Правиле 1.9 (a) или (b) и возникает из-за связи дисквалифицированного юриста с предыдущей фирмой, и
(i) дисквалифицированный юрист своевременно отстранен от любого участия в деле и ему не выплачивается никакая часть гонорара;
(ii) незамедлительно направляется письменное уведомление любому затронутому бывшему клиенту, чтобы бывший клиент мог удостовериться в соблюдении положений настоящего Правила, которое должно включать описание примененных процедур проверки; заявление о соблюдении фирмой и отобранным юристом настоящих Правил; заявление о том, что пересмотр может быть доступен в суде; и согласие фирмы незамедлительно ответить на любые письменные запросы или возражения бывшего клиента относительно процедур проверки; и
(iii) сертификаты соответствия настоящим Правилам и процедурам проверки предоставляются бывшему клиенту прошедшим проверку юристом и партнером фирмы через разумные промежутки времени по письменному запросу бывшего клиента и по окончании процедур проверки.
(b) Когда юрист прекратил сотрудничество с фирмой, фирме не запрещается впоследствии представлять лицо, интересы которого существенно противоречат интересам клиента, представленного ранее ассоциированным юристом и не представляемого в настоящее время фирмой, за исключением следующих случаев:
(1) дело является таким же или существенно связано с тем, в котором бывший ассоциированный юрист представлял клиента; и
(2) любой оставшийся в фирме юрист имеет информацию, защищенную Правилами 1.6 и 1.9 (c), что имеет значение.
(c) Дисквалификация, предписанная этим правилом, может быть отменена затронутым клиентом в соответствии с условиями, указанными в Правиле 1.7.
(d) Дисквалификация юристов, связанных в фирме с бывшими или действующими государственными юристами, регулируется Правилом 1.11.
Комментарий | Содержание | Следующее правило
Группировка выборок для вменения отсутствующих значений
DEP: Группирование выборок для вменения отсутствующих значений
2 @ alexgos90-13597Последний визит 2.6 лет назад
Уважаемые Арне Смитс и Вольфганг Хубер,
Во-первых, спасибо за ваш замечательный пакет, он действительно очень помогает мне легко выполнять анализ, который я искал.
Но есть одна вещь, которую я хотел бы знать, есть ли способ выполнить вменение пропущенного значения групповым способом, как это возможно в программном обеспечении для анализа Персея?
Причина, по которой мне это нужно, заключается в том, что я анализирую данные масс-спектрометрии co-IP для двух различных условий животных по сравнению с контролем с тремя повторами в каждом.Сложность здесь в том, что контроль представляет собой пустой шарик без антител, что приводит к довольно ожидаемым пропущенным значениям. Поэтому я хотел бы провести групповое вменение, чтобы не было четкости отдельных условий.
Лучшее,
Алексей
DEP вменение пропущенного значения протеомика rforпротеомика • 705 просмотров • ссылка на сайт 3.7 лет назад • обновлен 3,5 года назад alex.gos90 & utrif; 10 @ laurent-gatto-5645Был 29 дней назад
Бельгия
Если ваши данные находятся в MSnSet
, вы можете вменять различные подмножества и объединять результаты.В приведенном ниже примере я предполагаю, что хочу независимо вменять условие 1 (образцы / столбцы с 1 по 8) и условие 2 (образцы / столбцы 9:16):
> suppressPackageStartupMessages (библиотека ("MSnbase")) > данные (насет) > тусклый (насет) [1] 689 16 > e1 <- exprs (impute (naset [, 1: 8], method = "zero")) > e2 <- exprs (impute (naset [, 9:16], method = "zero")) > exprs (naset) <- cbind (e1, e2)
Надеюсь, это поможет.
Лоран
> sessionInfo () R версия 3.4.2 исправлен (2017-10-12 r73548) Платформа: x86_64-pc-linux-gnu (64-разрядная) Работает под управлением: Ubuntu 14.04.5 LTS Матричные продукты: по умолчанию BLAS: /usr/lib/atlas-base/libf77blas.so.3.0 ЛАПАК: /usr/lib/atlas-base/atlas/liblapack.so.3.0 локаль: [1] LC_CTYPE = en_GB.UTF-8 LC_NUMERIC = C [3] LC_TIME = en_GB.UTF-8 LC_COLLATE = en_GB.UTF-8 [5] LC_MONETARY = en_GB.UTF-8 LC_MESSAGES = en_GB.UTF-8 [7] LC_PAPER = en_GB.UTF-8 LC_NAME = C [9] LC_ADDRESS = C LC_TELEPHONE = C [11] LC_MEASUREMENT = en_GB.UTF-8 LC_IDENTIFICATION = C прилагаемые базовые пакеты: [1] Графика параллельной статистики grDevices использует методы наборов данных [8] база другие прикрепленные пакеты: [1] MSnbase_2.4.0 ProtGenerics_1.9.1 BiocParallel_1.11.13 [4] mzR_2.11.12 Rcpp_0.12.13 Биобаза_2.37.2 [7] BiocGenerics_0.23.4 загружается через пространство имен (и не прикрепляется): [1] IRanges_2.11.19 zlibbioc_1.23.0 doParallel_1.0.11 [4] munsell_0.4.3 colorspace_1.3-2 impute_1.51,0 [7] lattice_0.20-35 rlang_0.1.4 foreach_1.4.3 [10] msdata_0.17.1 plyr_1.8.4 tools_3.4.2 [13] mzID_1.15.0 grid_3.4.2 gtable_0.2.0 [16] affy_1.55.0 iterators_1.0.8 digest_0.6.12 [19] lazyeval_0.2.0 tibble_1.3.4 preprocessCore_1.39.3 [22] affyio_1.47.2 ggplot2_2.2.1 S4Vectors_0.15.14 [25] codetools_0.2-15 MALDIquant_1.16.4 limma_3.33.14 [28] BiocInstaller_1.28.0 компилятор_3.4.2 pcaMethods_1.69.0 [31] scale_0.5.0 stats4_3.4.2 XML_3.98-1.9 [34] vsn_3.45.2@ arnesmits-12878
Был 23 месяца назад
Данные хранятся в объекте SummarizedExperiment в DEP.Следовательно, нам нужен небольшой обходной путь, чтобы иметь возможность использовать решение Лорана. DEP предлагает функцию se2msn , чтобы легко превратить SummarizedExperiment в MSnSet. Затем мы используем exprs и , вменяем функции из MSnbase и в конечном итоге сохраняем данные в объекте SummarizedExperiment. См. Пример ниже, где мы начинаем с объекта SummarizedExperiment 'se'.
> библиотека ("DEP")
> suppressPackageStartupMessages (library ("SummarizedExperiment"))
> MSnSet_data <- se2msn (se)
> MSnSet_imputed1 <- MSnbase :: impute (MSnSet_data [, 1: " zero ")
> MSnSet_imputed2 <- MSnbase :: impute (MSnSet_data [, 9:16], method =" zero ")
> assay (se) <- cbind (MSnbase :: exprs (MSnSet_imputed1),
MSnbase :: exprs (MSnSet_imputed2))
Best,
Арне
Войдите в систему, прежде чем добавлять свой ответ.