|
|
postado por Eduardo Favaretto em 8 de junho de 2008 às 20h53 |
True Knowledge: busca semântica para fatos
A True Knowledge é uma empresa de busca na Internet sediada em Cambridge, Inglaterra. Ela está construindo sua própria base de conhecimento, importando dados de fontes (como Wikipédia) e incentivando sua base de usuários a contribuir com fatos e adicionar novo conhecimento numa maneira mais estruturada. Um modo simples de pensar sobre essa tecnologia: "um website onde você pode perguntar questões sobre assuntos e obter uma resposta direta".
O sistema da True Knowledge é um banco de dados capaz de guardar qualquer conhecimento humano factual numa forma que ambos, computadores e humanos, possam compreender. Ele modela o universo como uma vasta coleção de "entidades" e "fatos" a respeito destas entidades.
Uma entidade pode ser qualquer coisa, por exemplo: Albert Einstein, a cor azul, Alemanha, um determinado intervalo de tempo. Um fato é um relacionamento entre entidades, tal como: "Albert Einstein nasceu na Alemanha".
A tecnologia é desenhada para que qualquer um na Internet possa incluir novo conhecimento ao sistema e esse conhecimento é então instantaneamente disponibilizado para o resto do planeta usar. Ela parece complicada e talvez não forneça ajuda para um "usuário normal" que apenas quer um boa experiência na busca: entrar, obter a informação e sair.
Eu recebi um convite para testar o serviço [versão beta com acesso restrito apenas para usuários convidados].
Após entrar, eu escrevi "Quem é Cristóvão Colombo ?" [em inglês] e obtive uma resposta imediata, como segue:
 Foi ótimo ver a mensagem: "Nós não temos uma imagem identificada dessa pessoa. Adicione uma." [em inglês] Eu amei encontrar a possibilidade de incluir uma figura / foto [e contribuir com meu próprio conhecimento] com respeito ao "Cristóvão Colombo" - tal como o serviço da Wikipédia.
Desse modo, eu carreguei a foto do Cristóvão Colombo e instantaneamente ela estava lá, pronta para ser vista por outros usuários, como segue: 
Parabéns ao time da True Knowledge e sua abordagem para construir bases de conhecimento - existe um trabalho difícil para melhorar, especialmente relacionado com a qualidade das respostas e também à experiência do usuário. |
|
comentar
(3)
enviar
para um amigo
imprimir
permalink
RSS / feeds |
|
|
|
postado por Eduardo Favaretto em 23 de maio de 2008 às 10h30 |
Powerset dá asas para a Wikipédia
Eu testei o primeiro produto da Powerset liberado há duas semanas. Um nova idéia para reinventar a busca e a experiência da descoberta para 3 milhões de páginas de artigos da Wikipédia, dando aos usuários uma melhor maneira de digerir e navegar rapidamente no conteúdo, tentando entender buscas por linguagem natural e competindo com serviços de buscas por palavras-chave que atualmente dominam o mercado. 
O Powerset difere do Google e de outros serviços de busca pois filtra sentenças linguisticamente, encontrando assuntos, verbos, objetos, sinônimos e outros elementos, usando tecnologia licenciada da Xerox PARC. Ele extrai e indexa conceitos, relacionamentos e significados, de forma mais precisa que palavras-chave.
Ao invés de ser limitado para palavras-chaves, o Powerset permite que usuários entrem com frases, perguntas ou palavras-chaves. Ele funciona melhor na língua inglesa que na portuguesa [ou, neste último caso, ainda não funciona]. Para provar isto, eu fiz testes simples, "perguntando" para o Powserset e Google duas frases: "First man on the moon", "Quem descobriu o Brasil" e duas palavras-chave: "Carmen Miranda".
Com relação a frase "First man on the moon", ambos os buscadores resultaram bons links (veja imagens abaixo).

O Powerset "entendeu" alguma informação relacionada com a segunda frase, "Quem descobriu o Brasil" (em português) obtendo o resultado de uma página da Wikipédia sobre Carnaval (???), e o Google me deu muitos resultados para serem "explorados"...


Finalmente, quando eu perguntei a estes mecanismos de buscas somente duas palavras-chaves, "Carmen Miranda", eu obtive um boa resposta do Google
e uma excelente resposta do Powerset - toda informação relacionada com a "artista", numa forma detalhada e compilada, fácil de ser entendida.

|
|
comentar
(1)
enviar
para um amigo
imprimir
permalink
RSS / feeds |
|
|
|
postado por Eduardo Favaretto em 7 de dezembro de 2007 às 15h29 |
Por que o Google (e outros...) mostra somente 1000 resultados? Alguém pode responder está questão para mim? Tecnicamente, eu percebi num experimento prático no ::buscas.com que existe um "longo processo" ao tentar localizar uma palavra-chave em um campo texto por completo em estruturas de bancos de dados complexos (acima de 5 milhões de registros, por exemplo). Isto significa, quando a palavra-chave está no começo do campo indexado (i.e. LINK em LINKING), é fácil e rápido encontrá-la, mas quando essa mesma palavra-chave é uma string parcial numa palavra grande (i.e. LINK em FIRSTLINKMEDIA), como uma palavra combinada (ou string mesclada), ela toma tempo para ser localizada. Em virtude disso [e outros motivos "desconhecidos"], a maioria dos mais populares sistemas de mecanismos de buscas [Live Search, Yahoo, Dogpile além do Google], limitam as buscas do usuário para alguns milhares de resultados, mesmo se você verificar um banco de dados que traga alguns milhões de registros válidos. Talvez os usuários não querem esperar mais que alguns milisegundos... muito tempo (???). Sobre isso, se eu recebo 52.700.000 resultados para a palavra-chave "Brazil" (o nome de meu país em Inglês), mas eu "apenas" posso ver o resumo dos "primeiros" 1000 links (99 páginas), por que os outros 52.699.000 precisam existir?
É realmente verdade dizer: há muita informação armazenada nos bancos de dados [i.e. pelo lado da máquina], mas humanos são responsáveis por criar "filtros" ou "índices" para decidir quais registros serão "visíveis". Seria este o lado do Page Rank? Agradeça ao Larry e ao Sergey. |
|
comentar
(0)
enviar
para um amigo
imprimir
permalink
RSS / feeds |
|
|
|
postado por Eduardo Favaretto em 27 de setembro de 2007 às 16h35 |
Busca 2.0, Busca 3.0:
qual será a próxima (r)evolução?
"Hoje
uma típica busca no Google retorna mais de centenas de milhares ou mesmo milhões
de resultados -- mas nós apenas realmente olhamos a primeira página ou duas de
resultados. E os outros resultados que nós não olhamos? Existe muito a melhorar
na produtividade da busca, e na ajuda às pessoas que transacionam cada vez mais
extensas coletas de informação. A busca por palavra-chave não entende o
significado da informação, deixando a estrutura vazia. A linguagem natural é um
pouco melhor no entendimento do significado da informação -- mas isto ainda não
ajudará com a estrutura da informação. Para realmente melhorar significantemente
a produtividade como a Web proporciona, nós precisaremos de formas de busca que
são estrutura-de-dados-com-reconhecimento -- que são capazes de buscar com e
através das estruturas de dados, não apenas texto não estruturado ou HTML semi
estruturado. Este é um dos benefícios chave da
Web Semântica que está por
vir: esta permitirá que a Web seja navegada e procurada como um banco de dados",
disse
Nova Spivack, CEO da Radar Networks em seu blog. Dale Dougherty,
co-fundador da O’Reilly Media, editor e publisher da revista MAKE,
cunhou o
termo Web 2.0 em 2004, ao contrário da percepção popular. Em
uma recente entrevista na web, ele disse algumas palavras a respeito da
origem do termo: "(...) uma nova geração estava indo adiante, e eles fariam
coisas e pensariam diferentemente da geração anterior (...) a próxima nova
tecnologia seria mais uma vez a Web". O CEO do Google Eric Schmidt
estava recentemente
no "Fórum Digital de Seul" (Coréia do Sul) e explanou uma ótima definição sobre
Web 3.0: "aplicações que são unidas em pedaços" - com as características de
aplicações relativamente pequenas, o dado está na nuvem (Internet), as
aplicações podem ser executadas em qualquer aparelho (PC ou móvel), as
aplicações são muito rápidas e muito adaptáveis, e são distribuídas "viralmente"
(rede social, email, etc). Que tipo de modelo de busca na web nós teremos em 3
anos? Por alguma razão, eu não posso parar de perguntar para mim: então, qual
será o próximo passo? Nós temos notado alguns "sinais" com relação a evolução da
interface entre nós e os mecanismos de buscas - o modo que nós interagimos com
eles hoje precisa ser mais fácil, porque agora nós precisamos encontrar outros
tipos de conteúdo, não apenas páginas HTML, tais como: vídeo, arquivos de áudio,
música, podcats, arquivos de apresentações, documentos PDF, fotos em alta
resolução, feeds, conteúdo para aparelhos móveis (ipod, pda, smartphones, etc.).
Minha percepção é que as pessoas não têm tempo suficiente para mais nada...
Apesar da tecnologia 2.0 ou 3.0, o mais importante passo na minha
opinião é combinar tecnologia e experiência-do-usuário (interação contínua) para
ajudá-los a encontrar o que eles querem, de uma maneira precisa, onde quer que
eles estejam, usando qualquer aparelho ao invés de apenas computadores. |
|
comentar
(0)
enviar
para um amigo
imprimir
permalink
RSS / feeds |
|
|
|