Индекс


Ссылка на сообщениеhttp://forum-zavtra.org/msg.php?id=997548
Дата сообщенияПонедельник, 16 Апрель 2018 22:46
Авторpavlik
Дата последнего редактированияВторник, 17 Апрель 2018 06:31
В ответ на"Интересно, как он это пощитал?"
Я тебе даже хрестоматийный пример приведу, чтобы не быть голословным.
Представь себе, что все население условного Китая надо провести через одну дверь. Один китаец в секунду. Очевидно, что задача неразрешима, поскольку в год условных китайцев пройдет 60*60*24*365 = 31536000, а рождается их в два раза больше. Удвоение пропускной способности (неважно, расширить ли дверь, или сделать вторую, но в первом случае решение алгоритмическое, а во втором машинное) - выводит задачу на грань решаемой, но именно что на грань. Малейшее изменение демографии, например рожать чаще стали, или сбоя в алгоритме - одна из дверей два раза в год не срабатывает, или там зацепились плечами и пришлось пролезать по одному - все, проехали. Но даже с небольшим превышением пропускной способности надо рождаемостью задача становится решаемой, хотя и за очень долгое время. Так, если пропускная способность двух дверей будет превышать естественный прирост на одного условного китайца в день, то за двести миллиардов дней можно будет пропихнуть все сто миллиардов имеющихся китайцев и еще сто миллиардов из тех, кто успеет народиться. Еще 90 миллиардов - на очереди. За следующие 200 миллиардов дней у нас останется 75 миллиардов китайцев, ждущих своей очереди. Потом 50, потом 20, процесс пойдет все быстрее. В результате за 1000 миллиардов дней (я, конечно, могу точнее посчитать, но мы тут не на симпозиуме) мы пропустим через две двери всех условных китайцев в иной мир. Надеюсь, лучший.

А теперь у нас дверей не две, а тысяча. Или две тысячи. Пусть тысяча+две. Фактор естественного прироста можно игнорировать. С ним справляются уже две двери, что там говорить о тысяче. Т.е. две двери компенсируют прирост, а тысяча занимается непосредственным делом. Проводя 315 миллионов в год, все 100 миллиардов пройдут за 300 лет, что, разумеется, на порядки меньше 1000 миллиардов дней- это 2 730 972 603 года. На порядки? В десять миллионов раз. Повышая производительность в тысячу раз, мы повышаем скорость обработки в десять миллионов.

Именно тут порыта собака с биг датой и танцами с бубном вокруг нее профанов, которые пытаются анализировать, прогнозировать и вообще делать политику. Что делать, если данные поступают быстрее, чем их удается обрабатывать? Вот я работал для гражданской авиации, мы запускали эмуляторы, которые 30 дней на сотне устройств ежесекиудно измеряли по полусотне процессов на каждом устройстве. А потом это надо было статистически обработать. 30*24*60*60*100*50 = 12 960 000 000, почти 13 миллиардов значений. Но это нихуя не биг дата, потому что считается все постфактум. Хоть день считай, хоть два, хоть три. Ну, не неделю, потому что через неделю запланирован новый тест. Хотя, пока он будет крутиться, предыдущий по любому досчитаем. А то давай воткнем еще 16 гиг мемори, тогда и вообще дергаться не надо.

А биг дата - это когда данные поступают быстрее, чем могут обрабатываться. Какая-нибудь система безопасности аэропорта, которая отслеживает потенциальных террористов-бомбистов - не только по морде лица из базы данных, но и по сотне-другой прочих параметров, например наличии бороды, отсутствии усов, походке, реакциям на следящие системы, одежде и всяких выпирающих ее частях, том, что он держит в руке, мимике и так далее. Тут да, есть и разрабатываются фильтрующие и оценочные алгоритмы, чтобы совместить временные потоки получения данных и их обработки. Но фильтр - это дело такое, он, бывает, ненужное отфильтрует, а одну палочку коха таки пропустит.

Говорить, что какие-то охуенные алгоритмы охуенно ускорились - это для меня значит нести пургу о том, о чем не имеется ни малейшего понятия, кроме пары прочитанных в вирипедии статей.