Unconfigured Ad Widget

Collapse

Anúncio

Collapse
No announcement yet.

script focado em data mining

Collapse
X
 
  • Filter
  • Tempo
  • Show
Clear All
new posts

  • Font Size
    #1

    script focado em data mining

    Olá galera do GH! Acompanho o fórum já tem um tempo, apesar de nunca ter publicado nada. O conteúdo do site é incrivel, ja aprendi muitas coisas com a galera daqui.

    É o seguinte negada, eu precisava de uma ajuda para desenvolver um script. Na verdade queria só que me apontassem o caminho das pedras, que o resto eu me viro

    Vou participar de um projeto de pesquisa da UnB, e o script que eu preciso montar é o seguinte:
    ele terá que coletar dados como autor, data, número de linhas e local de publicação de COMMITS (contribuições para softwares open-source) espalhados na internet.

    Andei pesquisando e vi que uma técnica que poderia ser utilizada pra isso seria a mineração de dados na web. Como que eu integraria isso ao script? Nunca desenvolvi um script desses antes, tenho experiencia com aplicaçoes PHP e banco de dados apenas...

    Pensei que o script poderia ser bem simples, e eu iria manualmente de site em site, apenas executando o script pra coletar essas informaçoes.

    Alguma dica galera? Que linguagem de programação seria melhor pra fazer esse tipo de script?
    alguém pode recomendar um fórum próprio de programaço pra eu buscar ajuda?

    Obrigado desde já!

  • Font Size
    #2
    Hi.

    Hmm, data mining é um termo um tanto genérico hoje em dia.

    O que você vai precisar é de uma espécie de scraper, também conhecido como web crawler, certo? No caso, scripts que vão coletar coisas de sites que você vai informar, correto?
    Caso seja isso mesmo, minha dica é você NÃO utilizar PHP pra isso.

    []'s
    Desenvolvedor Perl, PHP, .NET (C#, VB.NET, ASP.NET), Java (J2EE), Shell Script, JavaScript/Ajax, C, amante de Linux e noob.

    twitter | last.fm

    Comment


    • Font Size
      #3
      não sei se isso ajuda você, mas lá vai um crawler bem básico em python!
      Attached Files
      Assembly, C, C++, C#, HTML/XHTML, Java SE, Java EE, JavaScript, Perl, Python, SQL.

      "If you give a hacker a new toy, the first thing he'll do is take it apart to figure out how it works." - Jamie Zawinski

      Comment


      • Font Size
        #4
        galera, brigadão pelas dicas! vou pesquisar mais sobre web crawlers pra ver como eu executaria essa tarefa.

        eu já encontrei os dados q eu vou precisar "baixar", eles se encontram aqui Apenas usuários registrados e ativados podem ver os links., Clique aqui para se cadastrar...

        neste site tem incluso várias submissoes de commits, vários projetos open source e suas origens, enfim todas as informaçoes necessarias pro projeto.

        será q é possivel acessar o banco de dados desse domínio, considerando q ele deve ser open source?

        Comment

        X
        Working...
        X