<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Ícaro Vinícius &#187; google</title>
	<atom:link href="http://icarovinicius.com.br/blog/tag/google/feed/" rel="self" type="application/rss+xml" />
	<link>http://icarovinicius.com.br/blog</link>
	<description>e o que for relevante...</description>
	<lastBuildDate>Tue, 08 Nov 2011 19:18:13 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.2.1</generator>
		<item>
		<title>Behind that white webpage</title>
		<link>http://icarovinicius.com.br/blog/2009/09/30/behind-that-white-webpage/</link>
		<comments>http://icarovinicius.com.br/blog/2009/09/30/behind-that-white-webpage/#comments</comments>
		<pubDate>Wed, 30 Sep 2009 05:51:51 +0000</pubDate>
		<dc:creator>admin</dc:creator>
				<category><![CDATA[Diário Expandido]]></category>
		<category><![CDATA[google]]></category>
		<category><![CDATA[internet]]></category>
		<category><![CDATA[mecanismos de busca]]></category>
		<category><![CDATA[palestras]]></category>
		<category><![CDATA[semana cmcc]]></category>
		<category><![CDATA[seo]]></category>
		<category><![CDATA[ufabc]]></category>

		<guid isPermaLink="false">http://icarovinicius.com.br/blog/?p=51</guid>
		<description><![CDATA[bb_keywords = "internet"; bb_bid = "1651453"; bb_lang = "pt-BR"; bb_name = "custom";bb_limit = "7";bb_format = "bbc"; Está acontecendo  na UFABC a Semana do CMCC &#8211; palestras, mini-cursos, workshops, exposições de projetos universitários e competições, envolvendo tecnologia, computação e matemática. Ontem, 29 de setembro, uma das palestras foi ministrada por Igor Prata Soares (Google Inc.), a [...]]]></description>
			<content:encoded><![CDATA[<!-- boo-widget start -->
          <script type="text/javascript">
            bb_keywords = "internet";
            bb_bid  = "1651453";
            bb_lang = "pt-BR";
            bb_name = "custom";bb_limit = "7";bb_format = "bbc";
          </script>
          <script type="text/javascript" src="http://widgets.boo-box.com/javascripts/embed.js"></script>
          <!-- boo-widget end --><p>Está acontecendo  na UFABC a <a title="Semana do CMCC (UFABC)" href="http://nupro.ufabc.edu.br/semanacmcc" target="_blank"> </a><strong><a title="Semana do CMCC (UFABC)" href="http://nupro.ufabc.edu.br/semanacmcc" target="_blank">Semana do CMCC</a></strong> &#8211; palestras, mini-cursos, workshops, exposições de projetos universitários e competições, envolvendo tecnologia, computação e matemática.</p>
<p>Ontem, 29 de setembro, uma das palestras foi ministrada por <strong>Igor Prata Soares</strong> (Google Inc.), a convite do meu professor <strong>João Paulo Gois</strong>.</p>
<p><strong>&#8220;Behind that white webpage&#8221; (Por trás da página branca)</strong> -  a palestra de Igor forneceu algumas noções sobre o funcionamento da página de buscas do Google e sobre a sua infra-estrutura.</p>
<p>Tentarei levantar as principais abordagens da palestra e deixarei, ao final do post, os apelos, ou conselhos, colocados por Igor no fechamento de sua apresentação.</p>
<p style="text-align: center;"><img class="size-medium wp-image-53 aligncenter" title="Google" src="http://icarovinicius.com.br/blog/wp-content/uploads/2009/09/google-logo-300x125.jpg" alt="Logotipo do Google" width="300" height="125" /></p>
<p>O mecanismo de buscas do Google é basicamente dividio em 3 etapas:</p>
<p><strong>Coleção de páginas: </strong>Anteriormente a uma pesquisa por determinada query, ou palavra, e à sua indexação e apresentação dos resultados ao usuário, as páginas existentes na web devem ser catalogadas e, acima disto tudo, devem ser visíveis pelo software.</p>
<p>Para que esta visibilidade aconteça, é necessário que uma lista de links aponte para algumas páginas, sendo estas catalogadas e seus links coletados para o aumento da lista e assim por diante, mapeando desta forma todo o conteúdo que existe na rede. As páginas recentes, que ainda não são apontadas por nenhum link na web, também podem ser indexadas pelo Google através de um <a title="Indexação de páginas no Google" href="http://www.google.com.br/intl/pt-BR/add_url.html" target="_blank">serviço fornecido pela própria empresa</a>.</p>
<p>Segundo Igor, o coletor (crawler) é o elemento mais difícil de ser implementado <span style="text-decoration: underline;">a nível de programação</span>.</p>
<p><strong>Indexação: </strong>Uma vez coletadas as páginas que poderão ser apresentadas como resultado da busca de um usuário, todo este conteúdo deve ser mapeado e acessível, em outras palavras, o conteúdo deve ser indexado.  Exemplo hipotético de como as palavras e páginas são indexadas pelo Google:</p>
<p>Supondo que {A, B} são todas as palavras existentes na Web e {1, 2, 3} todos os documentos (páginas), coletados pelo crawler do buscador, a indexação poderia ser feita da seguinte maneira:</p>
<p>A {1, 2}</p>
<p>B {2, 3}</p>
<p>De forma que cada palavra é uma verdadeira chave ou ponteiro para todos os documentos que as contém em seu conteúdo. A busca por <em>A or B</em>, por exemplo, retornaria a união entre os documentos apontados por A e os apontados por B: {1, 2, 3}. Já a busca por <em>A and B, </em>retornaria a intersecção entre os documentos apontados por A e os apontados por B: {2}.</p>
<p>Através deste conceito não muito difícil de ser entendido, uma busca real no Google pelas palavras-chaves<em> </em> <em><a title="Busca no Google: diário expandido" href="http://www.google.com.br/webhp?hl=pt-BR#hl=pt-BR&amp;safe=off&amp;q=di%C3%A1rio+expandido&amp;meta=&amp;fp=9a945e42f9efef9e" target="_blank">diário expandido</a> </em>, retorna aproximadamente 2.840.000 de páginas.</p>
<p><strong>Processamento de relevância: </strong>Finalmente, após serem coletadas pelo Crawler e encontradas e mapeadas pelo indexador, as páginas devem passar por um crivo que determina a relevância de cada página perante o termo buscado pelo usuário, apresentando-as logo nas primeiras páginas.</p>
<p>São mais de 100 os critérios para determinação da relevância de uma página, baseados exclusivamente no conteúdo dos documentos, por exemplo: Título da página, tamanho da fonte, proximidade entre as palavras buscadas no texto do documento, meta-tags do código HTML, quantidade ou frequencia das palavras, etc.</p>
<p>Mas a maioria destes critérios &#8220;on page&#8221; já eram utilizados por outros buscadores anteriores ao Google, foi aí que, pensando fora da caixa, saindo da dimensão dos documentos e partindo para algo mais macroscópico, os então estudantes da Stanford University <strong>Larry Page e Sergey Brin</strong>, tiveram a grande sacada de bilhões de dólares, o PageRank.</p>
<p style="text-align: center;">
<p style="text-align: left;">O PageRank é o nível de visibilidade de uma determinada página no resto da Web. Basicamente, quanto mais páginas apontam para uma específica, mais relevante ela é e quanto maior o PageRank de uma página, maiores são os PageRank&#8217;s das páginas apontadas por ela, criando um grande grafo que é geniosamente calculado pelos algoritimos do Google.</p>
<p style="text-align: center;"><img class="aligncenter" title="Google PageRank" src="http://icarovinicius.com.br/blog/wp-content/uploads/2009/09/pagerank-google-300x216.jpg" alt="Google PageRank" width="300" height="216" /></p>
<p style="text-align: left;">A palestra ainda se estendeu com explicações sobre a escalabilidade e a infra-estrutura da empresa.</p>
<p style="text-align: left;">Milhares de computadores comuns são mais vantajosos do que poucos super-computadores para o processamento, indexação, etc. levando em consideração o custo/manutenção. Na Google, caso uma máquina falhe (e falham!), ela é retirada na hora, outra é colocada no lugar e automaticamente configurada, sem causar grandes transtornos em seus serviços.</p>
<p style="text-align: left;">Igor Prata Soares finalizou a sua apresentação alertando os universitários presentes sobre a importância da vida e do convívio acadêmico e de como isso pode influenciar, caso queiram fazer parte de uma empresa como a Google, ou mesmo criarem a &#8220;idéia de bilhões de dólares&#8221;, frizando sempre o valor daqueles que <strong>pensam fora da caixa.</strong></p>
<p style="text-align: left;">&#8211;<br />
É isso aí, espero ter agregado um pouco de conteúdo aos meus leitores com este breve resumo sobre a excelente palestra que assisti.</p>
<p style="text-align: left;">Agradeço ao professor João Paulo Gois pela oportunidade e ao Igor Prata Soares pela boa vontade em ter vindo de Belo Horizonte para Santo André, parabenizo-o também pela sua apresentação e pelo seu fabuloso trabalho.</p>
<p style="text-align: left;">&#8211;</p>
<p style="text-align: left;">Aos que se interessaram sobre os detalhes do processamento da relevância de uma página, aproveito para divulgar o trabalho de <a title="Siga Martha Gabriel no Twitter..." href="http://twitter.com/marthagabriel" target="_blank">@marthagabriel</a>, especialista em Search Engine Optimization &#8211; <a title="Site de Martha Gabriel" href="http://www.martha.com.br/" target="_blank">www.martha.com.br</a></p>
<p style="text-align: left;">
<p style="text-align: left;">
]]></content:encoded>
			<wfw:commentRss>http://icarovinicius.com.br/blog/2009/09/30/behind-that-white-webpage/feed/</wfw:commentRss>
		<slash:comments>4</slash:comments>
		</item>
	</channel>
</rss>

