Wikidata:Ferramentas/OpenRefine
OpenRefine é uma ferramenta gratuita de organização de dados que pode ser usada para limpar dados tabulares e conectá-los a bases de conhecimento, incluindo Wikidata. Ele foi desenvolvido anteriormente pelo Google (sob o nome Google Refine) e agora fez a transição para um projeto apoiado pela comunidade.
Esta página reúne receitas do OpenRefine que podem ser úteis para importar conjuntos de dados para o Wikidata ou aumentar conjuntos de dados com dados adicionais extraídos do Wikidata. Sinta-se à vontade para usar a página de discussão para pedir ajuda com o software. Se você gosta de usar esta ferramenta, pode comentar com a caixa de usuário {{User loves OpenRefine}}
.
Atualmente, o OpenRefine oferece suporte apenas à reconciliação de itens. Lexemes não são suportados a partir de setembro de 2022.
Instalar e executar o OpenRefine
O OpenRefine pode ser baixado como um aplicativo. Ele funciona em computadores desktop e laptop com sistemas operacionais Windows, Mac e Linux. Ele executa um pequeno servidor em seu computador e você usa um navegador da Web para interagir com ele. Funciona melhor com navegadores baseados em Webkit, como Google Chrome, Chromium, Opera e Microsoft Edge, e também é compatível com Firefox.
O OpenRefine possui uma interface gráfica do usuário disponível em mais de 15 idiomas.
Instalar o OpenRefine em seu computador desktop ou laptop
Você pode encontrar e baixar a versão estável mais recente do OpenRefine [1].
Executar o OpenRefine no PAWS
Desde maio de 2021, todos com uma conta registrada da Wikimedia podem executar o OpenRefine no PAWS em Wikimedia's Cloud Services. Observe que este é um recurso experimental que não é suportado pela própria equipe do OpenRefine e que pode quebrar ou funcionar mal. No entanto, é uma opção interessante para pessoas que não podem instalar software em seu computador local.
[2] é uma ferramenta Wikimedia Cloud que fornece acesso hospedado a notebooks Jupyter e outras ferramentas sem a necessidade de qualquer instalação local.
Você pode acessar sua própria instalação do OpenRefine com este link: https://hub-paws.wmcloud.org/hub/user-redirect/openrefine. Você terá que fazer login com suas credenciais wiki. É possível que você receba uma mensagem de erro; se for esse o caso, atualize a página e ela deve funcionar.
Entre em contato com YuviPanda com perguntas sobre o OpenRefine via PAWS.
Características principais
Reconciliação do Wikidata
Na terminologia do OpenRefine, reconciliação é o processo de vincular células tabulares de texto livre a identificadores em bases de conhecimento. Os recursos integrados de reconciliação do OpenRefine o tornam uma ferramenta versátil para reconciliar dados tabulares com uma ampla variedade de bancos de dados, incluindo Wikidata.
wiki do OpenRefine contém um guia detalhado para o processo de reconciliação. Aqui estão as principais características:
- Restrinja a reconciliação a uma classe Wikidata. Somente itens de subclasses desta classe Wikidata serão considerados;
- Use várias colunas em seu conjunto de dados e compare-as com valores de propriedades no Wikidata, o que refina a pontuação de reconciliação e atua como um desempate entre nomes homônimos;
- Use os identificadores externos compartilhados por seu conjunto de dados e Wikidata para reconciliar seus itens;
- Use os sitelinks fornecidos em seu conjunto de dados como identificadores externos - se essas páginas da Wikimedia estiverem vinculadas a um item Wikidata, elas serão automaticamente reconciliadas com isso.
Se você quiser usar os recursos de reconciliação, considere usar os seguintes materiais de instrução:
- Esses recursos são explicados detalhadamente por Owen Stephens em sua de screencasts sobre o assunto.
- ArthurPSmith demonstrou seu com Wikidata na WikidataCon 2017.
As APIs podem ser, por exemplo, uma pesquisa em frlabels com wikidata graças a este link https://wikidata.reconci.link/fr/api.
Aumento de dados
Este recurso está disponível a partir do OpenRefine 2.8.
Depois que uma coluna de sua tabela é reconciliada com o Wikidata, você pode extrair dados do Wikidata, criando outras colunas em seu conjunto de dados. Se houver várias reivindicações para uma determinada propriedade, os valores serão agrupados como registros no OpenRefine: eles são armazenados em linhas adicionais onde a coluna reconciliada original está em branco. O modo de gravação do OpenRefine pode, portanto, ser mais adequado para as transformações posteriores que você deseja realizar em sua tabela.
Você pode usar esta função recursivamente nas colunas recém-criadas se elas corresponderem a itens do Wikidata. Isso permite que você explore o gráfico do Wikidata ao longo das propriedades selecionadas. Também é possível configurar a forma como você recupera as propriedades de várias maneiras (por exemplo, filtrando por classificação ou referências).
Editando no Wikidata
Este recurso está disponível a partir do OpenRefine 3.0.
O OpenRefine pode ajudá-lo a transformar dados tabulares em declarações Wikidata. Isso funciona criando um esquema - um modelo de edição do Wikidata que é aplicado a cada linha de sua tabela. Depois de criar um esquema, você pode:
- visualizar as edições do Wikidata e inspecioná-las manualmente;
- analisar e corrigir quaisquer problemas levantados automaticamente pela ferramenta;
- carreguar suas alterações no Wikidata fazendo login com sua própria conta;
- exportar as alterações para o formato QuickStatements v1.
Veja a subpágina de edição para mais detalhes. Muitos tutoriais estão disponíveis para você começar.
Fórmulas
Os fluxos de trabalho do OpenRefine podem ser compartilhados copiando a representação JSON do histórico de edição. Isso representa as operações que você fez no OpenRefine e pode ser reutilizado por outras pessoas em conjuntos de dados semelhantes. Esta seção lista algumas fórmulas que podem ser úteis ao trabalhar com Wikidata. Veja também OpenRefine Recipes.
- Obtendo números Q do Wikidata. Uma vez que você reconciliou uma coluna para o Wikidata, você pode obter os Qids em uma nova coluna, usando a operação Adicionar coluna com base nesta coluna com a seguinte expressão GREL :
cell.recon.match.id
- Mais variáveis. Você pode acessar muitas variáveis diferentes para a célula reconciliada. Veja a página de referência para variables.
- Compartilhe sua fórmula aqui!
Ajude o OpenRefine
O OpenRefine precisa da sua ajuda! Há muitas coisas que você pode fazer:
- melhorar esta documentação ou documentação do próprio OpenRefine
- ajude a traduzir OpenRefine em seu idioma com Weblate
- contribua para o desenvolvimento do OpenRefine ou mais especificamente em recursos relacionados ao Wikidata
- envolva-se no suporte ao usuário, por exemplo [$ 5 no fórum]
Temos um projeto Phabricator para rastrear a atividade em torno do OpenRefine dentro da Wikimedia; sinta-se à vontade para marcar qualquer tarefa relacionada com ele.
Ao longo de 2021-22, o OpenRefine será estendido com suporte Dados Estruturados no Wikimedia Commons (SDC). Este projeto é financiado pela Concessão de Projeto da Wikimedia Foundation.