Big Data - Tim smith

Големите данни са неуловима концепция. Те представляват набор от цифрова информация, която е неудобна за съхраняване, транспортиране, или анализиране. Големите данни са толкова обемни, че смазват технологиите на деня и ни предизвикват да създаваме следващото поколение на инструменти и техники за съхранение на данни. Големите данни не са нещо ново. В действителност физиците в ЦЕРН се борят с предизвикателството на техните нарастващи големи данни от десетилетия. Преди петдесет години, данните на ЦЕРН можели да бъдат съхранявани на един компютър. Добре де, това не бил обикновен компютър, това бил мейнфрейм компютър, който изпълвал цяла сграда. За да анализират данните, физици от цял свят пътували до ЦЕРН за да се свържат с огромната машина. През 70-те години на 20 век, нашите все по-нарастващи големи данни били разпределени в различни набори от компютри, които изникнали в ЦЕРН. Всеки набор бил свързан в специализирани, домашни мрежи. Но физиците си сътрудничили без оглед на границите между наборите, затова се нуждаели от достъп до данните от всички тях. Така ние свързахме независимите мрежи заедно в нашата собствена CERNET. През 80-те години на 20 век, острови от подобни мрежи говорещи различни диалекти изникнаха в цяла Европа и Щатите, правейки отдалечения достъп възможен, но мъчителен. За да се улесни за нашите физици по цял свят достъпът до неспирно разрастващите се големи данни съхранявани в ЦЕРН без да се пътува, мрежите трябваше да могат да говорят на същия език. Ние приехме зараждащите се интернет работни стандарти от Щатите, последвано от останалата част на Европа, и създадохме основната връзка в ЦЕРН между Европа и Щатите през 1989 г., и наистина глобалният интернет излетя! Тогава физиците можеха лесно да достъпват терабайти от големи данни, отдалечено от целия свят, да произвеждат резултати, и да пишат статии в техните домашни институти. След това те искаха да споделят своите открития с всичките им колеги. За да направим това споделяне на информацията лесно, ние създадохме уеба в началото на 90-те години на 20 век. Физиците вече не трябваше да знаят къде се съхранява информацията, за да я намерят и за да имат достъп до нея в интернет, идея, която се разпространи по целия свят и трансформира начина, по който общуваме в нашето ежедневие. В началото на 21 век, непрекъснатото нарастване на нашите големи данни изпревари способността ни да ги анализираме в ЦЕРН, въпреки наличието на сгради пълни с компютри. Трябваше да започнем разпространението на петабайти от данни към нашите партньори сътрудници, за да се използват локални изчисления и съхранение в стотици различни институти. За да организираме тези взаимосвързани ресурси с техните разнообразни технологии, ние разработихме компютърна мрежа, позволяваща безпроблемно споделяне на компютърните ресурси по целия свят. Тя разчита на връзки на доверие и взаимен обмен. Но този мрежови модел не можеше да бъде трансфериран извън нашата общност толкова лесно, където не всеки има ресурсите да споделя, нито пък може да се очаква фирмите да имат същото ниво на доверие. Вместо това алтернативен, по-търговско ориентиран подход за достъп до ресурси при поискване процъфтява отскоро, наречен изчисления в облак, който други общности сега използват за анализиране на техните големи данни. Може да изглежда парадоксално за място като ЦЕРН, лаборатория фокусирана върху изучаването на невероятно малки градивни частици от материя, да бъде източник на нещо толкова голямо, колкото големите данни. Но начина, по който изучаваме фундаменталните частици, както и силите, с които те си взаимодействат, включва създаването им за кратко време, сблъсквайки протони в нашите ускорители и улавяйки следи от тях, докато се ускоряват почти до скоростта на светлината. За да види тези следи, нашият детектор, със 150 милиона сензори, действа като една наистина масивна 3-D камера, правейки снимка на всяко събитие на сблъсък -- това е до 14 милиона пъти в секунда. Това генерира много данни. Но ако големите данни са били около нас от толкова дълго време, защо изведнъж започваме да чуваме за тях сега? Ами, както обяснява старата метафора, цялото е по-голямо от сбора на съставните му части, и вече не само науката е тази, която изследва това. Фактът, че можем да извлечем повече познания чрез обединяване на свързана информация и забелязване на корелации, може да информира и обогати многобройни аспекти на всекидневния живот, било в реално време, като трафик или финансови условия, в краткосрочни развития, като медицинските или метеорологичните, или в предсказуеми ситуации, като бизнеса, престъпността или тенденции в заболяванията. Почти всяка област се обръща към събирането на големи данни, с мобилни сензорни мрежи, обхващащи целия свят, камери на земята и във въздуха, архиви, съхраняващи информация публикувана в интернет, и регистри улавящи дейностите на гражданите на интернет по целия свят. Предизвикателството е да се измислят нови инструменти и техники за дълбаене на тези огромни запаси, за информиране при вземане на решения, за подобряване на медицинската диагностика, и въобще да се отговори на нуждите и желанията на утрешното общество по начини, които са немислими днес.