Html пакет за пъргавина, Дмитрий Хектепук
Блог за програмиране - C #, F #, C ++, Архитектура и др
Преглед на задачата
И така, имаме може би най-„размазаните“ от възможните задачи - получаване, обработка и съхраняване на данни. За какво, за да получим работеща система, трябва да знаем
- Къде са данните и как да ги осъществим правилно
- Как да обработвате данни, за да получите само това, от което се нуждаете
- Къде и как да съхранявате данни
Източници на данни
Нека да разгледаме източниците на данни, от които трябва да получите информация:
- Форуми
- Блогове
- Новини сайтове
- Каталози, листинги
- Обществени уеб услуги
- Приложен софтуер
Друг проблем е, че понякога съдържанието се зарежда динамично чрез AJAX, което налага наличието на различни видове ‘stateful’, за да се получи съдържание точно когато е налично.
Обработка на данни
Обработката на данни е най-трудоемката и скъпа (от гледна точка на потенциалния клиент) операция. От една страна, може да изглежда, че един и същ HTML трябва да бъде много лесен за анализиране със съществуващите инструменти, но в действителност не е така. Първо, HTML в повечето случаи не е XHTML, с други думи, като направите XElement.Parse (), просто ще получите изключение. Следователно трябва поне да можете да „коригирате“ зле написания HTML.
Дори и с добре оформени данни, пак ще имате много проблеми - в края на краищата всяка повече или по-малко сложна уеб страница е проекция на многоизмерната структура на базата данни на собственика върху едномерно пространство. По този начин възстановяването на връзки и зависимости е необходима задача за съхраняване на получената информация в релационни бази данни.
Хранилище за данни
След като сте получили данните, трябва да ги съхраните някъде. Има много опции за съхранение - с помощта на сериализация, текстови файлове, както и обектно и документно ориентирани, както и разбира се релационни бази данни. Изборът на хранилище в търговска поръчка най-вероятно зависи или от клиента („искаме MySQL“), или от финансовите предпочитания на клиента. При разработката на .Net базата по подразбиране е SQL Server Express. Ако правите хранилище за себе си, можете да използвате всичко, което искате - било то MongoDB, db4o или, например, SQL Server 2008R2 Datacenter Edition.