Гхммм….
Прошу прощения за долгое молчание. Сначала промачивал жабры на Урале, потом не было времени спокойно сесть и всё-таки разобраться с надёжностью/ненадёжностью компов и разными взглядами на эту проблему, в том числе, и на мнение, которое напрямую не прозвучало, но довольно явно читалось между строк, что использование двух компов сразу, т.е. дублирование, снижает надёжность (Гмм…)
Итак. Спасибо уважаемому Сэнсею за информацию, которую я нашёл у себя в личке. А именно, цитаты из разных источников про преславутый FIT. Думаю, что читатели и писатели форума были заинтригованы многократными ссылками на этот тотемный символ. Я думаю, уважаемый Сэнсей не будет против, если я поведую всем заинтересованным что ж это за зверь.
И не зверь это вовсе. Это всего лишь
Failure-In-Time (FIT)—a FIT being 1 failure in 1 billion device hours of operation
Т.е., число отказов за миллиард (!) или 10 в 9 степени девайсо-часов. Т.е. берём 100000 девайсов и испытываем их 10000 часов. Получаем количество отказов. Но на этом не останавливаемся. Ведь мы имеем дело здесь со случайными величинами. И насколько можно распространять данные результаты на все выпускаемые девайсы? Тем более что картина, ясен пень, может получиться другая при испытаниях 10000 девайсов за 100000 часов. Да и вообще, eсли мы получим к примеру 4 отказа, что с этим делать !? Ведь что такое 4 по сравнению с 100000.
Лирическое отступление для гуманитариев. В инженерных приложениях часто встречаются два довольно неприятных случая для классических методов вычислений. Первый это т.н. дискретные функции, т.е. имеющие фиксированные значения 1,2.3,5,12 и т.д. Пример непрерывной функции – давление газа в баллоне дайвера. Оно может принимать любое значение в диапазоне от 0 до 200. Пример дискретной функции – количество дайверов, которые утопли от недостатка газа в баллоне. Оно не может быть 54,765 . Оно принимает только целые значения, либо 54, либо 55. Второй случай – малые величины. Ну проблемы с малыми величинами ясны и очевидны. Нитку в иголку все вставляли… Так вот, часто в математике при работе в первом и втором случаях используются специальные методы, и мат.статистика здесь не исключение.
Для того, что бы полученные данные соотнести с вероятной реальностью результат испытаний, количество отказов, преобразовывают распределением Пуассона, а вернее его таблицами. Это как раз то самое увеличение, описываемое Сэнсеем. Но описываемое не очень верно. Данное преобразование увеличивает, или корректирует отказы, но не совсем так, как описано в предыдущих постах автора. Всё зависит от исходных данных, начального количества девайсов на испытаниях и количества отказов. Далее открываем табличку и по входным данным получаем скорректированный результат.
Почему распределение Пуассона? Потому что оно хорошо работает на больших выборках с малым, даже очень малым, количеством событий. А это именно наш случай.
Ну хорошо получили мы это число отказов за период времени, и что с ним делать? 6 это много или мало? 6 – это 6 отказов за 10 в 9 степени единицо-часов ! Решайте сами.
Далее из этой цифры путём нехитрых вычислений можно получить вероятность отказа девайса за период времени, ИМХО, не превосходящий тестовый. Кривая отказов уже упоминалась выше.
Вроде с FIT разобрались. Вопрос второй, а что же злобная Delta P не хочет нам опубликовать этот показатель надёжности?
Ответ прост. Данная методика не применима к изделию VR3 в целом. Таким образом можно оттестировать только элементную базу нашего компа, т.е. микроэлектронную начинку, ну ещё экранчик. Но кроме электроники в компе присутствуют механические части, О-ринги, корпус, и т.д., и электромеханические (кнопки, будь они не ладны), и самое главное в этом куске железа – программное обеспечение, или софт. Софт тестится по своим стандартам и процедурам, и к сожалению, даже полностью оттестированная и вылизанная программа может откинуть коленце в самый неподходящий момент. Хотя бы потому, что сложилась такая комбинация исходных данных, которую разработчики не предусмотрели. В мою бытность инженером в чудной организации ОНИЛ АКТР это называлось “фаза луны”.
Очевидно, что каждый из этих элементов будет вносить свою степень ненадёжности. О-ринги текут, кнопки и пружинки ломаются… В общем вероятность отказа изделия целиком выше, чем вероятность отказа элементной базы.
Нееет, если конечно задаться такой целью и найти фигову тучу дйверов и начать тестировать прибор, то что-то придумать для получении FIT можно. Проблема в том, что процедура будет слишком дорогой, потому что даже согласно этому стандарту можно прикинуть потребное количество дайвов и тушек. Но процедуру эту придётся изменять, потому что здесь слишком уж большая степень инвариантности функционирования, т.е. исходных данных и условий работы компа.
Думаю и вопрос о зловредности британской фирмы тоже сняли.
Остался тот самый серемяжный вопрос, кто же прав в рассуждениях о двух компах, Серж или Сэнсей?
АДНАЗНАЧНО в базовых рассуждениях прав Серж. Ведь даже получив FIT мы получим вероятность отказа девайса за период времени. А согласно элементарным правилам теории надёжности, при дублировании элемента системы для её функционирования достаточно одного из двух. Очевидно, что при отказе одного VR второй нам обеспечит относительно надёжный выход. И тогда для получения вероятности отказа системы из двух девайсов, мы должны перемножить вероятности отказов девайсов между собой. Что Серж и продемонстрировал.
То же о чём писал Сэнсей, это методика обработки статистических данных испытаний. А никак не расчет надёжности системы. Незачёт !
Усё… Спасибо тем, кто асилллил многа букфф…
Автор благодарит алфавит за любезно предоставленные буквы.