15. Основные понятия надежности автоматизированных экономических информационных систем (АЭИС)

Скачать доклад: 15. Основные понятия надежности автоматизированных экономических информационных систем (АЭИС)

Основные понятия надежности автоматизированных экономических информационных систем (АЭИС); методы повышения надежности функционирования АЭИС; методы проектирования систем с заданными надежностью (25.1.).

Надежность сложных ПС определяется двумя факторами: надеж ностью компонент и ошибками в конструкции, допущенными при проектировании. Доминирующим является второй фактор .

Следует определить фундаментальные понятия теории надежности применительно к анализу характеристик функционирования программ.

Отказ при использовании программ .. Понятие отказа связано с нарушением работоспособности изделия и его соответствия требованиям технической документации. Отказ при исполнении программ может проявиться как следствие: нарушения кодов записи программ в памяти команд; стирания или искажения данных в оперативной или долговременной памяти ЭВМ; нарушения нормального хода вычислительного процесса. Во всех случаях отказы приводят к прекращению выдачи информации и управляющих воздействий или к значительному искажению ее содержания и темпа выдачи.

Сбой при исполнении программ .. Понятие сбоя в теории надежности трактуется как самоустраняющийся отказ, не требующий внешнего вмешательства для замены отказавшихся компонент. Основной принцип классификации сбоев и отказов - разделение по временному показателю длительности восстановления  .после любого искажения программы, данных или вычислительного процесса. Классификация программных сбоев и отказов по длительности восстановления приводит к необходимости анализа следующих динамических характеристик внешней среды и временных характеристик функционирования программ: инерционности объекта, являющегося источником или потребителем информации; среднего темпа или периодичности решения задач по обработке информации для данного объекта; допустимой длительности ожидания отклика или времени реакции ЭВМ от момента поступления исходных данных до момента выдачи обработанных результатов.

Правильный и надежный комплекс программ . характеризуется вероятностью попадания в область исходных данных, предусмотренную требованиями спецификации.

Надежная программа обеспечивает низкую вероятность отказа в процессе реального функционирования. Быстрое реагирование на искажения программ, данных или вычислительного процесса и восстановление работоспособности за время, меньшее, чем порог между сбоем и отказом.

Восстановление .. Отсутствие физического разрушения компонент функционирующего ПС позволяет добиваться высокой автоматизации программного восстановления. Для решения этой задачи в ПС должны быть средства, позволяющие: проводить систематический контроль и обнаруживать аномалии процесса функционирования или состояния программ и данных; диагностировать обнаруженные искажения; выбирать методы и средства оперативного восстановления; реализовывать оперативное восстановление нормальной работоспособности; регистрировать происшедший сбой или отказ и обобщать с данными предыдущих искажений для выявления систематических случаев, требующих доработки программ или аппаратуры.

Реализация средств с такими функциями осуществляется за счет введения  2избыточности  0в программы, данные и процесс функционирования ПС: программной, включающей все программные компоненты, предназначенные для контроля, обнаружения, диагностики и восстановления ПС; информационной, заключающейся в дублированном хранении данных и средств кодовой помехозащитны информации; временной, состоявшей в выделении необходимых резервов процессорного времени ЭВМ на исполнение программ, обеспечивающих оперативный контроль и восстановление (рестарт) функционирования ПС.

Критерий надежности программ

В зависимости от целевого назначения систем для анализа показателей надежности их целесообразно разделить на два класса: невосстанавливаемые и восстанавливаемые. Для оценки надежности восстанавливаемых систем (программ) необходимо знать характеристики многократных отказов и восстановлений. Процесс восстановления достаточно полно описывается показателями: вероятностью восстановления за некоторое время; плотностью распределения времени восстановления и средним временем восстановления. Объединение характеристик отказов и восстановлений производится в следующих критериях: наработка на отказ и коэффициент готовности. На надежность функционирования ПС влияют факторы, вызывающие сбой или отказ при исполнении программы: искажения исходной информации, поступающей от внешних абонентов; самоустраняющиеся отказы или сбои в аппаратуре ЭВМ; невыявленные ошибки в программах.

Первопричинами искажения данных, поступающих от внешних абонентов, могут быть: искажения данных на первичных носителях информации при их подготовке; сбои и частичные отказы в аппаратуре ввода данных с первичных носителях информации; шумы и сбои в каналах связи при передаче сообщений по телекодовым линиям связи; сбои и частичные отказы в аппаратуре передачи или приема телекодовой информации; потери или искажения сообщений в ограниченных буферных накопителях ЭВМ; ошибки в документах, используемых для подготовки данных, вводимых в вычислительную систему.

При искажении вычислительного процесса или данных задача состоит в максимально быстром обнаружении искажения, в возможно точной классификации типа уже имеющихся и возможных последствий искажений, а также в проведении мероприятий, обеспечивающих быстрое восстановление нормального функционирования ПС.

Под временной избыточностью . понимается использование некоторой части производительности ЭВМ для контроля исполнения программ и восстановления вычислительного процесса. Для этого при проектировании программ должен предусматриваться запас производительности, который затем используется для контроля и надежности и повышения надежности функционирования. Для диагностики искажений и операций восстановления требуется в общем случае небольшой интервал времени, который выделяется либо за счет резерва, либо за счет сокращения времени решения функциональных задач.

Информационная избыточность . состоит в дублировании накопленных исходных и промежуточных данных, обрабатываемых ПС. Избыточность используется для сохранения достоверности данных, которые в наибольшей степени влияют на нормальное функционирование программ или требуют значительного времени для восстановления; она может способствовать не только обнаружению искажений, но и устранению ошибок. Для этого данные защищают двух-трехкратным дублированием с соответствующей дисциплиной контроля сохранности и периодического обновления.

Программная избыточность . используется для контроля и обеспечения достоверности наиболее важных результатов обработки информации. Она заключается в применении в ПС нескольких вариантов программ, различающихся методами решения некоторой задачи или программной реализации одного и того же метода.

С точки зрения построения защиты можно выделить следующие типы искажения результатов: - приводящие к прекращению выполнения основных функций ПС на длительное или неопределенное время; последствия могут проявляться в следующих видах: зацикливание, т.е. последовательная повторяющаяся реализация определенной группы команд, не прекращающаяся без внешнего вмешательства; останов и прекращение решения функциональных задач; искажение процессов взаимного прерывания программ, приводящее к блокировке возможностей некоторых типов прерываний; прекращение или значительное снижение темпа решения некоторых некоторых задач вследствие перегрузки ЭВМ по пропускной способности; значительное искажение или потеря накопленной информации о текущем состоянии внешней среды; - кратковременно, но значительно искажающие отдельные результаты по их смысловому содержанию или величине; последствия могут проявляться в следующих видах: пропуск модуля или группы программ; выход на программы или их части, резко искажающие результаты; выход на программы или их части, резко снижающие результаты; - мало и кратковременно влияющие на результаты, выдаваемые программами; этот тип ошибок в среднем мало искажают общие результаты, однако их большая концентрация может существенно влиять на функционирование ПС.

Защита от зацикливания в программах предотвращает искажение реальных подготовленных циклов, а также образование непредусмотренных (ложных) циклов.

Автоматическое обнаружение зацикливания наиболее просто просто производить при наличии вы составе аппаратуры ЭВМ счетчика относительного времени, пригодного для подсчета длительности временных интервалов. Контролировать зацикливания можно также путем периодического прерывания вычислительного процесса и анализа текущего времени.

Причиной зацикливания могут быть не только ошибки в программе и искажения исходной информации, но и сбои в аппаратуре. Причиной многократных зацикливаний с различными исходными данными является скорее всего частичный отказ в аппаратуре или искажения информации в процессе управления.

Защита от останова по методам принципиально близка к защите от зацикливания. Останов ЭВМ происходит либо из-за ошибки при формировании команды (частичный отказ или сбой), либо из-за ошибок в программе, приводящей к попаданию на участок программы, содержащий команду останова. Автоматическое обнаружение останова может производиться аналогично обнаружению зацикливания.

Защита от искажения взаимного прерывания программ, приводящих к возможности взаимной блокировки некоторых типов прерываний, осуществляется в основном аппаратными методами. Для защиты от таких программных ошибок, а также от от аппаратных сбоев при прерываниях должны предусматриваться программный контроль выполнения прерываний и периодический контроль наличия взаимодействия со всеми абонентами.

Защита от ошибок, приводящих к пропуску программ или их существенных частей, производится в основном методами контроля: ключевых кодов, определяющих перечень программ, которые должны быть включены; предшествования программ и изменения отдельных переменных. При обнаружении пропуска программы при ее завершении производится повторное включение всей функциональной группы. В отдельных случаях осуществляется автоматическое принудительное включение пропущенной программы.

Защита от перегрузки ЭВМ по пропускной способности предполагает обнаружение и снижение влияния последствий алгоритмических ошибок, обусловленных неправильным определением необходимой пропускной способности ЭВМ. Перегрузки могут быть также следствием неправильного функционирования источников информации и превышения интенсивности потоков сообщений. Последствия сводятся к прекращению решения некоторых функциональных задач, обладающих низким приоритетом.

Защита от искажения и потери накопленной информации предусматривает контроль результатов перед их переписью и в процессе переписи в зоне долговременного хранения информации, а также защиту этих зон от случайной записи в них информации программами, не предназначенными для этой операции.

Защита квазинепрерывных переменных  0состоит в использовании контроля гладкости изменения этих переменных с течением времени или в зависимости от другого параметра.

Подготовка, статистическая обработка и накопление данных по проявлениям искажений проводятся автоматически с выдачей периодически или по запросу сводных данных на индикацию для подготовки специалистами решений о корректировке программ или восстановлении аппаратуры.

Полезное время функционирования ПС соответствует относительной длительности решения функциональных задач. Время простоя определяется периодом обнаружения и восстановления после отказа.

Время контроля, обнаружения отказовых ситуаций и восстановления без регистрации отказа может не учитываться в продолжительности неработоспособного состояния.

Таким образом, все время контрольно-восстановительных операций, не завершающихся регистрируемым отказом, считается  полезным временем ., так же как время решения основных функциональных задач. Готовность системы включает два слагаемых: вероятность того, что в момент поступления данных на обработку ПС окажется в работоспособном состоянии; и вероятность того, что исходные данные застанут программы в состоянии контроля и восстановления, однако эти операции закончатся до использования допустимого резерва времени.

Предполагается, что в ПС реализован дискретный и достоверный контроль работоспособности и отказы возникают только в рабочем режиме. Рациональными являются предположения об экспоненциальном распределением наработки между отказовыми ситуациями и времени восстановления работоспособности.

Один из подходов к оценке рациональных затрат на отладку состоит в определении оптимальной длительности разработки, при которой затраты на ее выполнение и затраты на оперативный контроль и восстановление в процессе эксплуатации в сумме минимизированы. Эти суммарные затраты обеспечивают одну и ту же интенсивность пропуска необнаруженных искажении, приводящих к отказу при различной длительности отладки.

Заданная вероятность отказа может достигаться повышением затрат на отладку и увеличением ее длительности или за счет высокой эффективности средств оперативного контроля и восстановления.

Анализ вероятности отказа можно можно проводить по двум критериям: - минимизация затрат, обеспечивающих заданную вероятность возникновения и обнаружения отказовой ситуации .; - минимизация затрат, обеспечивающих заданную наработку на отказ .. Длительность отладки  .представляет собой время функционирования программ, в течение которого проявляются отказовые ситуации и ошибки. По этой величине может быть определено календарное время проведения работ по отладке и полные временные затраты на обнаружение и устранение ошибок.

На совокупном учете перечисленных выше факторов осуществляется оптимизация длительности отладки по суммарным затратам на отладку и оперативную помехозащиту .. Для каждого разрабатываемого ПС целесообразно создавать план мероприятий и методику, обеспечивающие необходимые показатели надежности. Прежде всего с учетом динамических характеристик и инерционности объектов управления должны быть определены и сформулированы основные требования к надежности конкретного ПС: необходимая наработка на отказ; допустимая длительность восстановления; коэффициент готовности и т.д.

Кроме того необходимо оценить достоверность обрабатываемых данных и возможную степень влияния их искажений на показатели надежности ПС.

На основе этих данных производится распределение ресурсов на отладку программ и на разработку средств оперативного контроля и восстановления. Структура ПС и его компонент должна быть потенциально устойчивой к внешним искажениям и позволять оперативно повторять вычисления при при отказовых ситуациях. Для качественной отладки разрабатываются методика планирования и проведения тестирования программных компонент и ПС в целом, методика достигнутого уровня отлаженности.

Для обеспечения надежного функционирования в ПС вводятся: средства регистрации сбоев и аномалий функционирования; средства накопления и обработки характеристик отказовых ситуаций; средства подготовки и реализации решений по оперативному восстановлению данных, программ и вычислительного процесса. Эти средства объединяются схемой обеспечения надежности ПС, компоненты которой частично размещаются в функциональных программах, а частично представляют специальную группу программ контроля и восстановления.

Для проверки достигнутых показателей надежности проводятся испытания ПС при реальных потоках информации, которые создаются имитаторами или реальными объектами. Интенсивность потоков и уровень искажения исходных данных задаются такими, чтобы проверить надежностьПС в типовых условиях функционирования, а также в особо сложных режимах поступления данных из внешней среды. Показатели надежности, полученные в экстремальных режимах, должны пересчитываться на средние условия с учетом вероятности возникновения таких ситуаций при реальном функционировании ПС.