Počnimo odmah s glavnim kodom skripte:
#!/usr/bin/perl
# which-forum.pl skripta
# (c) 2010. Alexandr A Alexeev, http://website/
koristiti strog;
# komentirana retka - za strogoću
# ako je zadatak prikupljanje statistike motora, ostavite ga kako jest
# ako napravite popis foruma - odkomentirajte
moji $podaci ;
$podaci .= $_ dok (<>
)
;
# provjerite koliko ih je Powered by phpBB bez veze u podnožju Ova i druge skripte spomenute u postu mogu se pronaći u ovoj arhivi. Skripta koji-forum.pl ispituje kod html stranice radi prisutnosti potpisa forumskog mehanizma u njemu. Koristili smo sličnu tehniku kada smo definirali WordPress i Joomla, ali postoji nekoliko razlika. Prvo, sama skripta ne učitava kod stranice, već ga čita iz stdin-a ili datoteke proslijeđene kao argument. To nam omogućuje da jednom preuzmemo stranicu, na primjer, pomoću wget-a, a zatim je prođemo kroz nekoliko parsera, ako ih imamo više. Drugo, u ovoj skripti prisutnost potpisa je 100% znak motora. Zadnji put, prisutnost potpisa samo je dala težinu odgovarajućem motoru i "osvojila" motor s najvećom težinom. Zaključio sam da bi u ovom slučaju takav pristup samo nepotrebno zakomplicirao kod. Kako bih testirao scenarij, napravio sam malo istraživanje. Sastavio sam popis od nekoliko tisuća foruma i svaki od njih proveo kroz svoju skriptu, određujući tako postotak aktivacija programa i popularnost različitih motora. Da bih dobio popis foruma, upotrijebio sam svoj Google parser. Tražilici su poslani upiti poput web mjesto:forum.*.ru i tako dalje. Kompletan kod generatora upita možete pronaći u datoteci gen-forumsearch-urls.pl. Osim .ru zone korištene su i .su .ua .kz i .by. Bilo je teško provesti takvo istraživanje prošli put, jer WordPress i Joomla stranice nemaju takve potpise u URL-u. Katalozi poput cmsmagazine.ru/catalogue/ ne pružaju dovoljnu veličinu uzorka. Što je 600 stranica na Drupalu? Moram priznati da su me rezultati eksperimenta razočarali. Od 12.590 proučenih lokacija samo su 7.083 motora uspješno identificirana, odnosno samo u 56% slučajeva. Možda nisam uzeo u obzir neki motor? Je li Bitrix stajao na pola foruma? Ili sam trebao potrošiti više vremena tražeći potpise? Općenito, ovdje je potrebno više istraživanja. Među 56% uspješno identificiranih mehanizama, IPB (31%), phpBB (26,6%) i vBulletin (26,5%) bili su najpopularniji, kao što se i očekivalo. Odmah iza njih slijede SMF (5,8%) i DLEForum (5,3%). Moj omiljeni punBB bio je tek na 6. mjestu (1,64%). Ne bih savjetovao da se jako vjeruje ovim brojkama (kažu da svaki treći forum u Runetu radi na IPB-u), ali se, naravno, mogu izvući određeni zaključci. Na primjer, ako namjeravate napraviti stranicu na forumskom motoru i planirate modificirati forum, recimo, plaćati korisnicima 0,01 $ za svaku poruku uz automatsko povlačenje sredstava jednom tjedno, tada biste trebali odabrati jedan od tri najpopularnija motora . Što je forum popularniji, veća je vjerojatnost da ćete pronaći programera koji ga dobro poznaje. Ako se ne očekuju značajne promjene u motoru, onda bi možda imalo smisla odabrati manje popularan motor, kao što je SMF ili punBB. Time ćete smanjiti broj hakerskih napada na vaš forum i količinu neželjene pošte koja mu se automatski šalje. Skripte za pronalaženje/definiranje foruma također mogu pronaći više od jedne praktične upotrebe. Prvo što mi je osobno palo na pamet bilo je razvrstati identificirane forume prema TCI-ju i staviti postove s poveznicama na neku od njihovih stranica u prvih sto. Međutim, stotinu forumskih dofollow linkova nije ni na koji način utjecalo na TIC (prošla su 2 ažuriranja), pa je bolje ne gubiti vrijeme ovdje osim ako vas ne zanimaju prijelazi. Jasno je da navedena upotreba skripti nije jedina. Mislim da lako možete shvatiti kako ih još možete koristiti. Organizira Botmaster Labs, nije planirano. Nema vremena, video je potreban za natjecanje, kao novi trend, iako je lakše sve objasniti dobrim screenshotovima (moj IMHO), a ja zapravo ne želim ništa snimati. Ostalo je vrlo malo profitabilnih tema, glupi spam više uopće ne vlada, ovdje treba razmišljati i nitko neće pucati u temu, samo da je zastarjelo pokuša staviti u lijepu ambalažu i malo napudrati. :) Ali ovo nije o nama. Općenito, mislim da su ova 3 "ne" u osnovi postala prepreka sudjelovanju u natjecanju za većinu potencijalnih sudionika. To je kao s popravkom auta od tri: jeftino, kvalitetno, brzo - u servisu mogu ispuniti samo 2 uvjeta istovremeno. sjedi i biraj što ti je bliže. :) Tako je i s konkurencijom: imam vremena, mogu snimiti video, ali nema teme, ili mogu snimiti video, imam temu, ali uopće nemam vremena, ili ga ima slobodno vrijeme i postoji mala tema, ali video plaši. Ali dobro je ako su istovremeno ispunjena 2 uvjeta. U redu, pustimo tekst. Nastavit ću sebi. Nisam planirao pa ću sudjelovati u natjecanju, čak sam i birao za koji ću članak glasati. Recite što hoćete, ali Doz vrlo dobro poznaje softver i zna ga koristiti vrlo razumno. Ali danas sam saznao da se intriga pojavila u natjecanju. Ispostavilo se da ja neću moći glasati, ali to mogu učiniti samo početnici koji su softver kupili 2011. i njima je namijenjeno natjecanje. Malo sam se iznenadio, ali vlasnik je gospodin. Natjecanje je reklamna kampanja i Alexander zna bolje kako je provesti. Općenito, tada sam odlučio objaviti članak, nešto je lakše pisati kada je jasno za koga je to zapravo nemoguće učiniti za cijelu kolektivnu farmu. Pokreće php-Fusion U Chrumer verziji 7.07, program je obučen s nekoliko novih motora: forumi.biz, forumb.biz, 1forum.biz, 7forum.biz itd. phpBB-fr.com, Solaris phpBB tema A proces učenja novih stvari kontinuirano se odvija. Pokreće SMF 1.1.2 Pokreće SMF 1.1.3 Pokreće SMF 1.1 RC2 Pokreće SMF 1.1.4 Pokreće SMF 1.1.8 Pokreće SMF 1.1.7 "2006-2008, Simple Machines LLC" I to nije sve. Kada skupljamo verzije motora, na nekim SMF forumima u podnožju nalazimo natpis "2001-2006, Lewis Media". Provjeravamo ovaj zahtjev, također nam u potpunosti udovoljava. Nalazimo sličan upit: "2001-2005, Lewis Media". Provlačeći podnožje dalje nalazimo sljedeći zahtjev: "SMFone design by A.M.A, ported to SMF 1.1". Provjerite - super. I tako dalje. Pola sata posla i imate divnu bazu upita na motoru, a za te će upite Google puno rjeđe banovati nego ako u njima koristite operatore. A u isto vrijeme, vaša baza podataka bit će mnogo čišća nego ako koristite upite poput "index.php?topic=", jer ovdje će Google dati ne samo forume koji su nam potrebni, već i puno ostavljenih resursa gdje je to bilo moguće ostavite link na temu foruma. Možete se raspravljati, kažu, što je loše u tome? Drugi su ostavili link, pa možemo. Ali! Veze mogu ostaviti ne samo Hrumer, već i drugi programi. štoviše, mogu se posebno izoštriti za ostavljanje komentara u određenom resursu, tzv. visoko specijaliziranom softveru, plus takve se veze mogu ostavljati ručno. Opet ponavljam, nije nam bitna količina smeća, nego kvaliteta, ionako ćemo skupiti bazu s pravim zahtjevima. Prednost ove metode je što praktički nećete morati konfigurirati sito-filter
伟哥 - viagra 吉他 - gitara 其他 - odmor 保险公司 - osiguranje Stavite ove kodove u Words datoteku da ih zamijenite: %E4%BC%9F%E5%93%A5 %E5%90%89%E4%BB%96 %E5%85%B6%E4%BB%96 %E4%BF%9D%E9%99%A9%E5%85%AC%E5%8F%B8 Ako promovirate web mjesto za osiguranje, onda postavljanjem veze u svom profilu na tematski (!) čak i kineski forum možete pronaći na zahtjev " forum SMF" 保险公司 bit će jako dobro.
ispis "phpbb \n"
if ($podaci =~ /]+href="[^"]*http:\/\/(?:www\.)?phpbb\.com\/?"[^>]*>phpBB/i ili
# $data =~ /viewforum\.php\?[^""]*f=\d+/i ili
$podaci =~ /phpBB\-SEO/i ili
$podaci =~ /)
;
ispis "ipb \n"
if ($podaci =~ /]+href="[^"]*http:\/\/(?:www\.)?invision(?:board|power)\.com\/?[^"]*"[^>]*> [^<]*IP\.Board/i
ili
$podaci =~ /]+href="[^"]*http:\/\/(?:www\.)?invisionboard\.com\/?"[^>]*>Invision Power Board/i ili
$podaci =~ /
$podaci =~ /index\.php\?[^""]*showforum=\d+/i)
;
ispis "vbulletin \n"
if ($podaci =~ /Pokreće:?[^<]+vBulletin[^<]+(?:Version)?/i
ili
$podaci =~ /)
;
ispis "smf \n"
if ($podaci =~ /]+href="[^"]*http:\/\/(?:www\.)?simplemachines\.org\/?"[^>]*>Pokreće SMF/i ili
$podaci =~ /index\.php\?[^""]*board=\d+\.0/i)
;
ispis "punbb \n"
if ($podaci =~ /]+href="[^"]*http:\/\/(?:(?:www\.)?punbb\.org|punbb\.informer\.com)\/?"[^>]*> PunBB/i) ; #ili
# $data =~ /viewforum\.php\?[^""]*id=\d+/i);
ispis "fluxbb \n"
# if($data =~ /viewtopic\.php\?id=\d+/i ili
if ($podaci =~ /]+href="http:\/\/(?:www\.)fluxbb\.org\/?"[^>]*>FluxBB/i)
;
ispis "exbb \n"
if ($podaci =~ /]+href="[^"]*http:\/\/(?:www\.)?exbb\.org\/?"[^>]*>ExBB/i) ; # ili
# $data =~ /forumi\.php\?[^""]*forum=\d+/i);
ispis "yabb \n"
if ($podaci =~ /]+href="[^"]*http:\/\/(?:www\.)?yabbforum\.com\/?"[^>]*>YaBB/i ili
$podaci =~ /YaBB\.pl\?[^""]*num=\d+/i ) ;
ispis "dleforum \n"
if ($podaci =~ /\(Pokreće DLE Forum\)<\/title>/i ili
$podaci =~ /]+href="[^"]+(?:http:\/\/(?:www\.)?dle\-files\.ru|act=copyright)[^"]*">DLE forum<\/a>/i)
;
ispis "iconboard \n"
if ($podaci =~ /]+href="[^"]*http:\/\/(?:www\.)?ikonboard\.com\/?[^"]*"[^>]*>Ikonboard/i ili
$podaci =~ /\n"
if ($podaci =~ /\n"
# if($data =~ /forums\.php\?fid=\d+/i ili
# $data =~ /topic\.php\?fid=\d+/i ili
if ($podaci =~ /]+href="http:\/\/(?:www\.)?flashbb\.net\/?"[^>]*>FlashBB/i)
;
ispisati "stokesit \n"
# if($data =~ /forum\.php\?f=\d+/i ili
if ($podaci =~ /]+href="http:\/\/(?:www\.)?stokesit\.com\.au\/?"[^>]*>[^\/]*Stokes IT/i)
;
print "podij \n"
# if($data =~ /topic\.php\?t=\d+/i ili
if ($podaci =~ /]+href=[""]?http:\/\/(?:www\.)?sopebox\.com\/?[""]?[^>]*>Podium/i)
;
ispis "usebb \n"
# if($data =~ /forum\.php\?id=\d+/i ili
if ($podaci =~ /]+href="http:\/\/(?:www\.)?usebb\.net\/?"[^>]*>UseBB/i)
;
ispis "wrforum \n"
# if($data =~ /index\.php\?fid=\d+/i ili
if ($podaci =~ /]+href="http:\/\/(?:www\.)?wr\-script\.ru\/?"[^>]*>WR\-Forum/i)
;
ispis "yetanotherforumnet \n"
if ($data =~ /Još jedan forum\.net/i ili
$podaci =~ /zadano\.aspx\?g=posts&t=\d+/i)
;
web mjesto:razgovor.*.ru
web mjesto:board.*.ru
web mjesto:smf.*.ru
web mjesto:phpbb.*.ru
....
Dugi uvod je gotov, sada na stvar.
Što treba početniku kada je nabavio takav super-žetelac, a to je kompleks Xrumer + Hrefer? Tako je, naučite kako raditi na tome i odbacite iluziju da ako počnete slati neželjenu poštu možete zaraditi novac. Ako tako mislite, odmah dajte svoj novac u dobrotvorne svrhe. Morate naučiti kako koristiti alate kompleksa, po mogućnosti ga izoštriti za sebe. Vrijeme "uzmi više - baci više" je prošlo. Kvantiteta ustupa mjesto kvaliteti. Dakle, mi ćemo prikupiti bazu za sebe, nemojte naučiti kako to učiniti - zaostat ćete za vlakom. Naravno, Khrefer će nam u tome pomoći. Ako planirate promovirati svoje resurse na Googleu, tada također moramo potražiti donatorske stranice putem Googlea. Mislim da je to razumljivo i logično. Ali Google, kao gospodarica bakrene planine, svoje bogatstvo ne poklanja svima. Potreban je pristup. Htio bih odmah reći da se nemojte nadati da ćete prema znakovima koje nađete u javnosti uspjeti nešto skupiti. Zato su dostupni javnosti jer su bezvrijedni. Neću dalje razvijati temu. Bolje je da vam kažem kako ga pravilno sastaviti tako da vidite rezultat, ostalo ćete sami finalizirati, glavna stvar je razumjeti princip. Potrebno je skupljati prema ispravnom prema znakovima specifičnih motora koji su nam potrebni, a ne prema znakovima foruma općenito. To je glavna pogreška početnika - ne koncentrirati se na određenu stvar, već pokušati pokriti sve u cjelini. Pa ipak, ako želite analizirati koliko-toliko normalnu bazu, odbijte koristiti operatore u upitima. Bez "inurl:", "site:", "title" itd. Google će odmah zabraniti pretraživače poput vas. Stoga pažljivo proučavamo motore s kojima Chrumer trenutno radi:
Općenito, moramo pripremiti ispravne upite za Khreferovo analiziranje. Uzmimo forum dizhok kao primjer. SMF forumi. I počet ćemo ga rastavljati na dijelove za raščlanjivanje. U tome će nam pomoći naš voljeni Google. Unos Google upita SMF forumi- puno smeća u broju, premotajte na neku 13. stranicu i odaberite bilo koji link. Naišao sam na ovaj: http://www.volcanohost.com/forum/index.php?topic=11.0. Otvorimo ga i istražimo. Moramo pronaći nešto karakteristično na stranici što se može primijeniti na pretragu drugih stranica na ovoj tražilici. U podnožju primjećujemo sljedeći natpis Pokreće SMF 1.1.14, citiramo ga i unesemo u Google, pokazuje nam da za ovaj zahtjev zna oko 59 milijuna opcija. Pregledamo veze, dodamo još nekoliko opcija ovoj ključnoj riječi, na primjer, "Pokreće SMF 1.1.14" topola ili Pokreće SMF 1.1.14 viagra. Uvjereni smo da je zahtjev šik, u izdavanju samo foruma i gotovo bez smeća za vas.
Osim toga, nas ne zanima kvantiteta, nego kvaliteta, kao što sam već rekao. Samo naprijed. S istog foruma preuzimamo još jedan izraz iz podnožja: , također ga citirajte i dodajte Googleu. Kao odgovor otkriva da zna više od 13 milijuna rezultata. Opet letimo kroz izlaz, dodajemo dodatne riječi i provjeravamo izlaz s njima. Vodimo računa da je zahtjev izvrstan i da gotovo da nema smeća. Općenito, već postoje 2 željezna zahtjeva. Predlažem da prvi forum zasad pustimo na miru i nastavimo skupljati zahtjeve ostalih foruma. Srećom, Google je otvoren na zahtjev 2006-2008 Simple Machines LLC. Uzimamo iz izdanja, na primjer, ove forume: http://www.snowlinks.ru/forum/index.php?topic=1062.0 i http://litputnik.ru/forum/index.php?action=printpage; topic=380.0 u podnožjima preuzimamo sljedeće zahtjeve od njih: "Pokreće SMF 1.1.7" i "Pokreće SMF 1.1.10" (uvijek vam savjetujem da zahtjeve za Khrefer šaljete pod navodnike, jer nam prije svega treba kvaliteta svi). Mislim da je jasno što radimo, na kraju ćemo imati određenu bazu upita za pretraživanje foruma na SMF motoru (izabran je kao primjer, s ostalim motorima je slično).
Izgledat će otprilike ovako:
Mislim da je vrlo važno naučiti kako pravilno koristiti Chrefer u početnoj fazi, jer nakon što ste to naučili, uvijek možete pronaći upotrebu za Chrumer, bez obzira na to kako se situacija promijenila. Zaštite postaju sve kompliciranije, a ako je zaštita pojačana na nekim tipovima motora i Khrumer trenutno ne može s tim izaći na kraj, onda nema smisla trošiti resurse na prikupljanje tih linkova, pa onda na njima raditi s Khrumerom, bolje je usredotočiti se na ono što daje rezultat. A u isto vrijeme, ako je tim Botmaster Labsa naučio Chrumera nečemu novom, možete brzo secirati novog pacijenta i pripremiti Chrumerovu bazu dok je pacijent još topao. Vrijeme je novac, resurs možda više neće biti relevantan kada kupite bazu. skupio netko. Osim toga, ispravna zbirka baza za sebe uvelike proširuje "bijelu" upotrebu Khrumera. I upravo tu se sve kreće, htjeli mi to ili ne, ali ide proces bijeljenja ili sijedinja. Crne plahte za sve što možete otići u prošlost.
Sve ostale, već tehničke aspekte rada s Hreferom možete vidjeti u pomoći i na njima nema smisla duljiti, svi ciljevi-bodovi-sekunde postavljaju se empirijski za svaki automobil pojedinačno.
Kao bonus, postavit ću ovdje predložak za parsiranje kineske tražilice Baidu, neki dan su me pitali za to, pa sam to napravio između vremena, oprostite na dosjetki. :)
Ime hosta=http://www.baidu.com
Upit=s?wd=
LinksMask=
Ukupno stranica=100
Sljedeća stranica=
Sljedeća stranica2=
CaptchaURL=
CaptchaImage=
CaptchaField=
Pokušao sam ih testirati raščlaniti, nije bilo zabrane, Khrefer je brzo prikupio resurse, svi zahtjevi za raščlanjivanjem bili su slični Googleovim, ali bilo je puno kineskih resursa i s visokim PR-om, a osim toga, bilo je mnogo mjesta gdje Europljani nisu kročili. Bolje je analizirati s kineskim zahtjevima. Google Translate će vam pomoći u tome, upišite popis ključnih riječi na ruskom i prevedite ga na kineski. Istina u riječi“Chreferove riječi se ne mogu sastaviti na kineskom, moraju se kodirati.
Umjesto kineskog:
Zaključno, želio bih reći da nikada nisam razumio ljude koji su se žalili da su Khreferi loši ili da ih ne raščlanjuju, uvijek sam to želio reći, jednostavno ih ne znate kuhati. Niti jedan parser nije bolji od referera, samo treba biti ispravan. Hrefer je auto: dobar, solidan, njemački napravljen, ali njime upravlja čovjek i sve ovisi o tome koliko se pametno vozi, ne možeš auto tjerati da ide lijevo i desno u isto vrijeme.
Posebna tema je čišćenje baza, jednom sam prije 3 godine za prethodni natječaj. Odatle, sve je i dalje relevantno, ali sada možete odbiti provjeru 200 OK, stvarno mi se nije sviđao ovaj proces, pogreške su bile vrlo velike, puno je suvišnog filtrirano. Sada se to može učiniti gotovo automatski tijekom Chrumerovog rada, iako ovaj proces nije potpuni analog provjere za "200 OK". Općenito, do točke: ne tako davno, u Khrumeru se pojavila prekrasna prilika - opljačkati informacije iz resursa u vrijeme pokretanja projekta. Ovako izgleda. Ubacujete predložak koji će se obrađivati tijekom rada, a podaci prikupljeni prema predlošku unositi u datoteku xgrabbed.txt u mapi Dnevnici. Ovu funkciju možete koristiti za bilo što, polet mašte je ogroman. Ovu funkciju koristim jednom tjedno za uklanjanje poveznica iz "istekle" radne baze podataka. Nije tajna da forumi odumiru svaki dan kako bi očistili bazu od takvih izvora, a alat "Autograbbing" pomoći će nam u ovom slučaju.
Uostalom, morate priznati, često tipkajući, na primjer, http://www.laptopace.com/index.php, vidimo da je ta domena već, na primjer, goudyadya, ali tamo nema foruma. Dakle, da bismo ovu šljaku izbacili iz baze, mi ćemo opljačkati. :) Otvorimo izvorni kod stranice i tamo vidimo ovaj unos:
Sada će nam svi "mrtvi" iz goudaddija biti poznati po imenu.
Ovdje je mali izbor za alat "Autograbbing", ako želite očistiti bazu podataka od različitih "isteklih" domena: