Это прекрасно:).
Moving on, once you have these millions of pages (or even tens of millions), how do you process them? Surely, Hadoop MapReduce is necessary, after all, that's what Google uses to parse the web, right?
Pfft, fuck that noise:
find crawl_dir/ -type f -print0 | xargs -n1 -0 -P32 ./process
32 concurrent parallel parsing processes and zero bullshit to manage. Requirement satisfied.
Moving on, once you have these millions of pages (or even tens of millions), how do you process them? Surely, Hadoop MapReduce is necessary, after all, that's what Google uses to parse the web, right?
Pfft, fuck that noise:
find crawl_dir/ -type f -print0 | xargs -n1 -0 -P32 ./process
32 concurrent parallel parsing processes and zero bullshit to manage. Requirement satisfied.
Это прекрасно :).
Двигаясь дальше, если у вас есть эти миллионы страниц (или даже десятки миллионов), как вы их обрабатываете? Конечно, Hadoop MapReduce необходим, в конце концов, это то, что Google использует для анализа сети, верно?
Черт возьми этот шум:
найти crawl_dir / -type f -print0 | xargs -n1 -0 -P32 ./process
32 параллельных параллельных процесса анализа и ноль дерьма для управления. Требование выполнено.
Двигаясь дальше, если у вас есть эти миллионы страниц (или даже десятки миллионов), как вы их обрабатываете? Конечно, Hadoop MapReduce необходим, в конце концов, это то, что Google использует для анализа сети, верно?
Черт возьми этот шум:
найти crawl_dir / -type f -print0 | xargs -n1 -0 -P32 ./process
32 параллельных параллельных процесса анализа и ноль дерьма для управления. Требование выполнено.
У записи 2 лайков,
0 репостов.
0 репостов.
Эту запись оставил(а) на своей стене Игорь Тирский