Začnimo takoj z glavno kodo skripta:
#!/usr/bin/perl
# skript which-forum.pl
# (c) 2010 Alexandr A Alexeev, http://website/
uporabite strogo;
# komentirane vrstice - za strogost
# če je naloga zbiranje statističnih podatkov motorja, pustite tako, kot je
# če naredite seznam forumov - odkomentirajte
moji $podatki ;
$data .= $_ medtem ko (<>
)
;
# preveri, koliko jih uporablja phpBB brez povezave v nogi Ta in drugi skripti, omenjeni v objavi, so v tem arhivu. Skripta kateri-forum.pl pregleda kodo strani html glede prisotnosti podpisov mehanizma foruma. Pri definiranju WordPressa in Joomle smo uporabili podobno tehniko, vendar obstaja nekaj razlik. Prvič, sam skript ne naloži kode strani, ampak jo prebere iz stdin ali datoteke, posredovane kot argument. To nam omogoča, da stran enkrat prenesemo, na primer z wgetom, nato pa jo poženemo skozi več razčlenjevalnikov, če jih imamo več kot enega. Drugič, v tem skriptu je prisotnost podpisa 100% znak motorja. Nazadnje je prisotnost podpisa le dala težo ustreznemu motorju in "zmagala" motorju z največjo težo. Odločil sem se, da bi v tem primeru takšen pristop samo po nepotrebnem zakompliciral kodo. Da bi preizkusil scenarij, sem malo raziskoval. Sestavil sem seznam več tisoč forumov in vsakega od njih prepeljal skozi svoj skript ter tako določil odstotek aktivacije programov in priljubljenost različnih motorjev. Za pridobitev seznama forumov sem uporabil svoj razčlenjevalnik Google. Iskalnik je poslal poizvedbe, kot je spletno mesto:forum.*.ru in tako naprej. V datoteki najdete celotno kodo generatorja poizvedb gen-forumsearch-urls.pl. Poleg območja .ru so bili uporabljeni tudi .su .ua .kz in .by. Nazadnje je bilo težko izvesti takšno študijo, saj strani WordPress in Joomla nimata takšnih podpisov v URL-ju. Katalogi, kot je cmsmagazine.ru/catalogue/, ne zagotavljajo zadostne velikosti vzorca. Kaj je 600 spletnih mest na Drupalu? Moram priznati, da so me rezultati poskusa razočarali. Od 12.590 raziskanih lokacij je bilo uspešno identificiranih le 7.083 motorjev, torej le v 56% primerov. Mogoče nisem upošteval kakšnega motorja? Je Bitrix stal na polovici forumov? Ali pa bi moral porabiti več časa za iskanje podpisov? Na splošno je tukaj potrebnih več raziskav. Med 56 % uspešno identificiranih motorjev so bili po pričakovanjih najbolj priljubljeni IPB (31 %), phpBB (26,6 %) in vBulletin (26,5 %). Tesno jim sledita SMF (5,8 %) in DLEForum (5,3 %). Moj najljubši punBB je bil šele na 6. mestu (1,64%). Ne bi svetoval, da bi močno zaupali tem številkam (pravijo, da vsak tretji forum v Runetu deluje na IPB), vendar je seveda mogoče potegniti določene zaključke. Na primer, če nameravate narediti spletno stran na forumskem mehanizmu in nameravate spremeniti forum, recimo plačati uporabnikom 0,01 $ za vsako sporočilo s samodejnim dvigom sredstev enkrat na teden, potem morate izbrati enega od treh najbolj priljubljenih motorjev. . Bolj kot je forum priljubljen, večja je verjetnost, da boste našli programerja, ki ga dobro pozna. Če v motorju ni pričakovati bistvenih sprememb, je morda smiselno izbrati manj popularen motor, na primer SMF ali punBB. S tem boste zmanjšali število hekerskih napadov na vaš forum in količino samodejno poslane neželene pošte. Skripte za iskanje/definiranje forumov lahko najdejo tudi več kot eno praktično uporabo. Prva stvar, ki mi je osebno prišla na misel, je bila razvrstitev identificiranih forumov po TCI in uvrstitev objav s povezavami do ene od njihovih strani med prvih sto. Vendar sto forumskih povezav dofollow ni vplivalo na TIC (2 posodobitvi sta minili), zato je bolje, da tukaj ne izgubljate časa, razen če vas zanimajo prehodi. Jasno je, da imenovana uporaba skript še zdaleč ni edina. Mislim, da lahko zlahka ugotovite, kako jih še lahko uporabite. Organizira Botmaster Labs, ni načrtovano. Ni časa, video je potreben za tekmovanje, kot novodobni trend, čeprav je vse lažje razložiti z dobrimi posnetki zaslona (moj IMHO), in res ne želim ničesar posneti. Donosnih tem je ostalo zelo malo, neumni spam sploh ne vlada več, tukaj je treba razmišljati in nihče ne bo streljal teme, če jo le zastareli poskušajo zaviti v lep ovoj in malo popudrati. :) Ampak ne gre za nas. Na splošno mislim, da so te 3 "ne" v bistvu postale ovire za sodelovanje v tekmovanju za večino potencialnih udeležencev. Tako je kot pri popravilu avtomobila od treh: poceni, kvalitetno, hitro - v servisu lahko izpolnijo samo 2 pogoja hkrati. sedi in izberi tisto, kar ti je bližje. :) Enako je s tekmovanjem: imam čas, lahko naredim video, pa ni teme, ali lahko naredim video, imam temo, pa sploh nimam časa, ali pa ga je prosti čas in je majhna tema, vendar video straši. Je pa dobro, če sta izpolnjena 2 pogoja hkrati. V redu, pustimo besedilo. Nadaljeval bom pri sebi. Nisem načrtoval, zato bom sodeloval v natečaju, izbral sem celo, za kateri članek bom glasoval. Recite, kar želite, vendar Doz zelo dobro pozna programsko opremo in jo zna zelo razumno uporabljati. Toda danes sem izvedel, da se je na tekmovanju pojavila spletka. Izkazalo se je, da ne bom mogel glasovati, ampak lahko to storijo le začetniki, ki so program kupili leta 2011 in je tekmovanje namenjeno njim. Malo sem bil presenečen, ampak lastnik je gospod. Tekmovanje je oglaševalska kampanja in Alexander ve bolje, kako jo voditi. Na splošno sem se takrat odločil, da objavim članek, nekoliko lažje je pisati, ko je jasno, za koga pravzaprav tega ni mogoče storiti za celotno kolektivno kmetijo. Poganja php-Fusion V Chrumer različici 7.07 je bil program usposobljen z več novimi motorji: forumi.biz, forumb.biz, 1forum.biz, 7forum.biz itd. phpBB-fr.com, tema Solaris phpBB In proces učenja novih stvari se nenehno nadaljuje. Poganja SMF 1.1.2 Poganja SMF 1.1.3 Poganja SMF 1.1 RC2 Poganja SMF 1.1.4 Poganja SMF 1.1.8 Poganja SMF 1.1.7 "2006-2008, Simple Machines LLC" In to še ni vse. Pri zbiranju različic motorjev najdemo na nekaterih SMF forumih v nogi previs "2001-2006, Lewis Media". To zahtevo preverimo, tudi v celoti nam ustreza. Najdemo podobno poizvedbo: "2001-2005, Lewis Media". Če nadaljujemo po nogah, najdemo naslednjo zahtevo: "SMFone design by A.M.A, ported to SMF 1.1". Preverite - super. In tako naprej. Pol ure dela in imate čudovito bazo poizvedb na motorju, za te poizvedbe pa bo Google veliko redkeje banal, kot če v njih uporabljate operatorje. Hkrati pa bo vaša zbirka podatkov veliko čistejša, kot če uporabljate poizvedbe, kot je "index.php?topic=", saj bo tukaj Google ponudil ne le forume, ki jih potrebujemo, ampak tudi veliko levih virov, kjer je to mogoče pustite povezavo do teme foruma. Lahko trdite, pravijo, kaj je narobe s tem? Drugi so pustili povezavo, da lahko. Ampak! Povezave lahko pusti ne samo Hrumer, ampak tudi drugi programi. poleg tega jih je mogoče posebej izostriti za puščanje komentarjev v določenem viru, tako imenovano visoko specializirano programsko opremo, poleg tega pa bi lahko takšne povezave pustili ročno. Še enkrat ponavljam, ni nam pomembna količina krame, ampak kvaliteta, vseeno bomo zbrali bazo s pravimi zahtevami. Prednost te metode je, da vam praktično ne bo treba konfigurirati sito-filter
伟哥 - viagra 吉他 - kitara 其他 - počitek 保险公司 - zavarovanje Vstavite te kode v datoteko Words, da jih nadomestite: %E4%BC%9F%E5%93%A5 %E5%90%89%E4%BB%96 %E5%85%B6%E4%BB%96 %E4%BF%9D%E9%99%A9%E5%85%AC%E5%8F%B8 Če promovirate spletno mesto za zavarovanje, potem z objavo povezave v svojem profilu na tematskem (!) celo kitajskem forumu najdete na zahtevo " forum SMF" 保险公司 bo zelo dobro.
natisni "phpbb \n"
če ($podatki =~ /]+href="[^"]*http:\/\/(?:www\.)?phpbb\.com\/?"[^>]*>phpBB/i oz
# $data =~ /viewforum\.php\?[^""]*f=\d+/i ali
$data =~ /phpBB\-SEO/i oz
$podatki =~ /)
;
natisni "ipb \n"
če ($podatki =~ /]+href="[^"]*http:\/\/(?:www\.)?invision(?:board|power)\.com\/?[^"]*"[^>]*> [^<]*IP\.Board/i
oz
$podatki =~ /]+href="[^"]*http:\/\/(?:www\.)?invisionboard\.com\/?"[^>]*>Invision Power Board/i oz
$podatki =~ /
$podatki =~ /index\.php\?[^""]*showforum=\d+/i)
;
natisni "vbulletin \n"
če ($podatki =~ /Poganja:?[^<]+vBulletin[^<]+(?:Version)?/i
oz
$podatki =~ /)
;
natisni "smf \n"
če ($podatki =~ /]+href="[^"]*http:\/\/(?:www\.)?simplemachines\.org\/?"[^>]*>Poganja SMF/i oz
$podatki =~ /index\.php\?[^""]*board=\d+\.0/i)
;
natisni "punbb \n"
če ($podatki =~ /]+href="[^"]*http:\/\/(?:(?:www\.)?punbb\.org|punbb\.informer\.com)\/?"[^>]*> PunBB/i) ; #ali
# $data =~ /viewforum\.php\?[^""]*id=\d+/i);
natisni "fluxbb \n"
# if($data =~ /viewtopic\.php\?id=\d+/i ali
če ($podatki =~ /]+href="http:\/\/(?:www\.)fluxbb\.org\/?"[^>]*>FluxBB/i)
;
natisni "exbb \n"
če ($podatki =~ /]+href="[^"]*http:\/\/(?:www\.)?exbb\.org\/?"[^>]*>ExBB/i) ; # oz
# $data =~ /forumi\.php\?[^""]*forum=\d+/i);
natisni "yabb \n"
če ($podatki =~ /]+href="[^"]*http:\/\/(?:www\.)?yabbforum\.com\/?"[^>]*>YaBB/i oz
$data =~ /YaBB\.pl\?[^""]*num=\d+/i ) ;
natisni "dleforum \n"
če ($podatki =~ /\(Poganja forum DLE\)<\/title>/jaz oz
$podatki =~ /]+href="[^"]+(?:http:\/\/(?:www\.)?dle\-files\.ru|act=copyright)[^"]*">Forum DLE<\/a>/jaz)
;
natisnite "iconboard \n"
če ($podatki =~ /]+href="[^"]*http:\/\/(?:www\.)?ikonboard\.com\/?[^"]*"[^>]*>Ikonboard/i oz
$podatki =~ /\n"
če ($podatki =~ /\n"
# if($data =~ /forums\.php\?fid=\d+/i ali
# $data =~ /topic\.php\?fid=\d+/i ali
če ($podatki =~ /]+href="http:\/\/(?:www\.)?flashbb\.net\/?"[^>]*>FlashBB/i)
;
natisni "stokesit \n"
# if($data =~ /forum\.php\?f=\d+/i ali
če ($podatki =~ /]+href="http:\/\/(?:www\.)?stokesit\.com\.au\/?"[^>]*>[^\/]*Stokes IT/i)
;
tisk "podij \n"
# if($data =~ /topic\.php\?t=\d+/i ali
če ($podatki =~ /]+href=[""]?http:\/\/(?:www\.)?sopebox\.com\/?[""]?[^>]*>Podium/i)
;
natisni "usebb \n"
# if($data =~ /forum\.php\?id=\d+/i ali
če ($podatki =~ /]+href="http:\/\/(?:www\.)?usebb\.net\/?"[^>]*>UseBB/i)
;
natisni "wrforum \n"
# if($data =~ /index\.php\?fid=\d+/i ali
če ($podatki =~ /]+href="http:\/\/(?:www\.)?wr\-script\.ru\/?"[^>]*>WR\-Forum/i)
;
natisni "yetanotherforumnet \n"
if ($data =~ /Yet Another Forum\.net/i ali
$podatki =~ /default\.aspx\?g=posts&t=\d+/i)
;
spletno mesto: pogovor.*.ru
spletno mesto:board.*.ru
spletno mesto: smf.*.ru
spletno mesto:phpbb.*.ru
....
Dolgega uvoda je konec, zdaj pa k bistvu.
Kaj potrebuje začetnik, ko je pridobil tak super-kombajn, ki je kompleks Xrumer + Hrefer? Tako je, naučite se delati na tem in zavrzite iluzijo, da lahko z pošiljanjem neželenih listov zaslužite denar. Če tako mislite, takoj darujte svoj denar v dobrodelne namene. Naučiti se morate uporabljati orodja kompleksa, po možnosti jih izostriti zase. Čas "vzemi več - vrzi več" je minil. Kvantiteta se umakne kakovosti. Torej bomo sami zbrali osnovo, ne naučite se, kako to storiti - zaostali boste za vlakom. Khrefer nam bo seveda pri tem pomagal. Če nameravate promovirati svoje vire v Googlu, moramo poiskati tudi spletna mesta donatorjev prek Googla. Mislim, da je to razumljivo in logično. A Google kot gospodarica bakrene gore svojega bogastva ne razda vsem. Potreben je pristop. Takoj bi rad povedal, da ne upajte, da boste glede na znake, ki jih najdete v javnosti, lahko nekaj zbrali. Zato so javno dostopni, ker so brez vrednosti. Teme ne bom razvijal naprej. Bolje je, da vam povem, kako ga pravilno sestaviti, da boste videli rezultat, ostalo boste dokončali sami, glavna stvar je razumeti načelo. Zbrati je treba po pravilnem glede na znake določenih motorjev, ki jih potrebujemo, in ne na znake forumov na splošno. To je glavna napaka začetnikov - ne osredotočiti se na določeno stvar, ampak poskušati zajeti vse kot celoto. In vendar, če želite razčleniti bolj ali manj običajno bazo, zavrnite uporabo operaterjev v poizvedbah. Brez "inurl:", "site:", "title" itd. Google bo iskalce, kot ste vi, takoj prepovedal. Zato natančno preučujemo motorje, s katerimi Chrumer trenutno dela:
Na splošno moramo pripraviti pravilne poizvedbe za razčlenjevanje s Khreferjem. Vzemimo za primer forum dizhok. Forumi SMF. In začeli ga bomo razstavljati na dele za razčlenjevanje. Pri tem nam bo pomagal naš ljubljeni Google. Vnos Google poizvedbe Forumi SMF- veliko smeti v številki, previjte nazaj na kakšno 13. stran in izberite poljubno povezavo. Naletel sem na tole: http://www.volcanohost.com/forum/index.php?topic=11.0. Odprimo ga in raziščimo. Na strani moramo najti nekaj značilnega, kar lahko uporabimo pri iskanju drugih strani na tem motorju. V nogi opazimo naslednji napis Poganja SMF 1.1.14, ga citiramo in vnesemo v Google, nam pokaže, da za to zahtevo pozna približno 59 milijonov možnosti. Preletimo povezave, tej ključni besedi dodamo še nekaj možnosti, na primer "Poganja SMF 1.1.14" topol oz Poganja SMF 1.1.14 viagra. Prepričani smo, da je zahteva elegantna, pri izdaji samo forumov in skoraj brez smeti za vas.
Poleg tega nas ne zanima kvantiteta, ampak kvaliteta, kot sem rekel zgoraj. Kar daj. Iz istega foruma vzamemo še en stavek iz noge: , ga tudi citiraj in posreduj Googlu. V odgovoru razkrije, da pozna več kot 13 milijonov rezultatov. Spet preletimo izpis, dodamo dodatne besede in z njimi preverimo izpis. Poskrbimo, da je povpraševanje odlično in tudi smeti skorajda ni. Na splošno sta že 2 zahtevi za železo. Predlagam, da prvi forum zaenkrat pustimo pri miru in nadaljujemo z zbiranjem prošenj drugih forumov. Na srečo je Google odprt na zahtevo 2006-2008 Simple Machines LLC. Iz izdaje vzamemo na primer te forume: http://www.snowlinks.ru/forum/index.php?topic=1062.0 in http://litputnik.ru/forum/index.php?action=printpage; topic=380.0 v nogah od njih vzamemo naslednje zahteve: "Powered by SMF 1.1.7" in "Powered by SMF 1.1.10" (vedno svetujem, da zahteve za Khrefer vodite v narekovajih, ker najprej potrebujemo kakovost vse). Mislim, da je jasno, kaj počnemo, na koncu bomo imeli določeno bazo poizvedb za iskanje po forumih na SMF motorju (izbran je bil kot primer, z ostalimi motorji je podobno).
Videti bo nekako takole:
Mislim, da je zelo pomembno, da se naučite, kako pravilno uporabljati Chrefer v začetni fazi, ker ko se tega naučite, lahko vedno najdete uporabo Chrumerja, ne glede na to, kako se situacija spremeni. Zaščite postajajo vse bolj zapletene in če je bila zaščita okrepljena na nekaterih vrstah motorjev in se Khrumer trenutno ne more spoprijeti s tem, potem nima smisla zapravljati sredstev za zbiranje teh povezav in nato za delo na njih s Khrumerjem, bolje se je osredotočiti na tisto, kar daje rezultat. In hkrati, če je ekipa Botmaster Labs naučila Chrumerja nekaj novega, lahko hitro secirate novega pacienta in pripravite Chrumerjevo bazo, medtem ko je pacient še topel. Čas je denar, vir morda ne bo več pomemben, ko kupite osnovo. nekdo zbral. Poleg tega pravilno zbiranje baz zase močno razširi "belo" uporabo Khrumerja. In ravno tu se vse premika, hočeš nočeš, a poteka proces beljenja oziroma sivenja. Črne rjuhe za vse, kar lahko greš v preteklost.
Vse ostale, že tehnične vidike dela s Hreferjem si lahko ogledate v pomoči in se o njih nima smisla zadrževati, vsi cilji-točke-sekunde so postavljeni empirično za vsak avto posebej.
Kot bonus bom tukaj objavil predlogo za razčlenjevanje kitajskega iskalnika Baidu, prejšnji dan so me spraševali o tem, tako da sem to naredil vmes, oprostite za besedno igro. :)
Ime gostitelja=http://www.baidu.com
Poizvedba=s?wd=
LinksMask=
Skupaj strani=100
Naslednja stran=
Naslednja stran2=
CaptchaURL=
CaptchaImage=
CaptchaField=
Poskušal sem jih testirati razčleniti, ni bilo prepovedi, Khrefer je hitro zbral vire, vse zahteve za razčlenjevanje so bile podobne Googlovim, vendar je bilo veliko kitajskih virov in z visokim PR-jem, poleg tega pa je bilo veliko mest kamor Evropejci še niso stopili. Bolje je razčleniti s kitajskimi zahtevami. Pri tem vam bo pomagal Google Translate, vnesite seznam ključnih besed v ruščini in ga prevedite v kitajščino. Resnica v besede»Chreferjevih besed v kitajščini ni mogoče sestaviti, treba jih je prekodirati.
Namesto kitajščine:
Na koncu bi rad povedal, da nikoli nisem razumel ljudi, ki so se pritoževali, da so Khrefers slabi ali ne razčlenjeni, vedno sem to želel povedati, preprosto ne veste, kako jih kuhati. Noben razčlenjevalnik ni boljši od napotitelja, le pravilen mora biti. Hrefer je avto: dober, soliden, narejen v nemščini, vendar ga človek obvlada in vse je odvisno od tega, kako pametno se ga pelje, ne moreš avta siliti, da gre istočasno desno in levo.
Ločena tema je čiščenje baz, jaz enkrat pred 3 leti za prejšnje tekmovanje. Od tam naprej je vse še vedno pomembno, zdaj pa lahko zavrnete preverjanje za 200 OK, res mi ni bil všeč ta postopek, napake so bile zelo velike, veliko odvečnega je bilo filtriranega. Zdaj je to mogoče storiti skoraj samodejno med Chrumerjevim delom, čeprav ta postopek ni popoln analog preverjanja za "200 OK". Na splošno bistvo: ne tako dolgo nazaj se je v Khrumerju pojavila čudovita priložnost - oropati informacije iz virov v času izvajanja projekta. Izgleda takole. Vozite v predlogo, ki bo med delom obdelana, podatki, zbrani po predlogi, pa bodo vpisani v datoteko xgrabbed.txt v mapi Dnevniki. To funkcijo lahko uporabite za karkoli, polet domišljije je ogromen. To funkcijo uporabljam enkrat na teden, da odstranim povezave iz "potekle" delujoče baze podatkov. Ni skrivnost, da forumi vsak dan umrejo, da bi očistili bazo iz takšnih virov, in orodje "Autograbbing" nam bo v tem primeru pomagalo.
Navsezadnje morate priznati, da pogosto tipkamo, na primer http://www.laptopace.com/index.php, vidimo, da je ta domena že na primer goudyadya, vendar tam ni foruma. Torej, da bi vrgli to žlindro iz baze, bomo oropali. :) Odpremo izvorno kodo strani in tam vidimo ta vnos:
Zdaj nam bodo vsi "mrtvi" iz goudaddija znani po imenu.
Tukaj je majhen izbor za orodje "Autograbbing", če želite očistiti bazo podatkov iz različnih "potečenih" domen: