Это прекрасно:). Moving on, once you have these...

Это прекрасно:).

Moving on, once you have these millions of pages (or even tens of millions), how do you process them? Surely, Hadoop MapReduce is necessary, after all, that's what Google uses to parse the web, right?

Pfft, fuck that noise:

find crawl_dir/ -type f -print0 | xargs -n1 -0 -P32 ./process

32 concurrent parallel parsing processes and zero bullshit to manage. Requirement satisfied.
Это прекрасно :).

Двигаясь дальше, если у вас есть эти миллионы страниц (или даже десятки миллионов), как вы их обрабатываете? Конечно, Hadoop MapReduce необходим, в конце концов, это то, что Google использует для анализа сети, верно?

Черт возьми этот шум:

найти crawl_dir / -type f -print0 | xargs -n1 -0 -P32 ./process

32 параллельных параллельных процесса анализа и ноль дерьма для управления. Требование выполнено.
У записи 2 лайков,
0 репостов.
Эту запись оставил(а) на своей стене Игорь Тирский

Понравилось следующим людям