Html пакет за пъргавина, Дмитрий Хектепук

Блог за програмиране - C #, F #, C ++, Архитектура и др

Преглед на задачата

И така, имаме може би най-„размазаните“ от възможните задачи - получаване, обработка и съхраняване на данни. За какво, за да получим работеща система, трябва да знаем

  • Къде са данните и как да ги осъществим правилно
  • Как да обработвате данни, за да получите само това, от което се нуждаете
  • Къде и как да съхранявате данни

Източници на данни

Нека да разгледаме източниците на данни, от които трябва да получите информация:

  • Форуми
  • Twitter
  • Блогове
  • Новини сайтове
  • Каталози, листинги
  • Обществени уеб услуги
  • Приложен софтуер

Друг проблем е, че понякога съдържанието се зарежда динамично чрез AJAX, което налага наличието на различни видове ‘stateful’, за да се получи съдържание точно когато е налично.

Обработка на данни

Обработката на данни е най-трудоемката и скъпа (от гледна точка на потенциалния клиент) операция. От една страна, може да изглежда, че един и същ HTML трябва да бъде много лесен за анализиране със съществуващите инструменти, но в действителност не е така. Първо, HTML в повечето случаи не е XHTML, с други думи, като направите XElement.Parse (), просто ще получите изключение. Следователно трябва поне да можете да „коригирате“ зле написания HTML.

Дори и с добре оформени данни, пак ще имате много проблеми - в края на краищата всяка повече или по-малко сложна уеб страница е проекция на многоизмерната структура на базата данни на собственика върху едномерно пространство. По този начин възстановяването на връзки и зависимости е необходима задача за съхраняване на получената информация в релационни бази данни.

Хранилище за данни

След като сте получили данните, трябва да ги съхраните някъде. Има много опции за съхранение - с помощта на сериализация, текстови файлове, както и обектно и документно ориентирани, както и разбира се релационни бази данни. Изборът на хранилище в търговска поръчка най-вероятно зависи или от клиента („искаме MySQL“), или от финансовите предпочитания на клиента. При разработката на .Net базата по подразбиране е SQL Server Express. Ако правите хранилище за себе си, можете да използвате всичко, което искате - било то MongoDB, db4o или, например, SQL Server 2008R2 Datacenter Edition.