sábado, 22 de abril de 2017

Home · tesseract-ocr / tesseract Wiki · GitHub

Home · tesseract-ocr / tesseract Wiki · GitHub



Tesseract é um open source Reconhecimento Óptico de Caracteres (OCR) Motor, disponível sob a licença Apache 2.0. Ele pode ser usado diretamente, ou (para programadores) usando uma API para extrair digitado, manuscrito ou impresso texto a partir de imagens. Ele suporta uma ampla variedade de idiomas.


Não Tesseract não tem uma interface gráfica embutida, mas há vários disponíveis a partir do 3rdParty página.


Instalação

Há duas partes a instalar, o próprio motor, e os dados de treinamento para um idioma.


Linux

Tesseract é acessível directamente a partir de muitas distribuições Linux. O pacote é geralmente chamado de 'tesseract' ou 'tesseract-ocr' - Pesquisar repositórios de sua distribuição para encontrá-lo. Os
pacotes também estão geralmente disponíveis para os dados de formação
linguística (procurar os repositórios), mas se não você vai precisar
fazer o download dos dados de formação adequados ( = <3.02 ou o mais tardar a partir github.com ), descompactá-lo e copiar o arquivo .traineddata em o diretório 'tessdata', provavelmente /usr/share/tesseract-ocr/tessdataou /usr/share/tessdata.


Se Tesseract não está disponível para a sua distribuição,
ou se você quiser usar uma versão mais recente do que eles oferecem,
você pode compilar seu próprio . Note que as versões mais antigas do Tesseract só apoiou processamento .tiff arquivos.


Mac OS X

Você pode instalar Tesseract usando MacPorts ou Homebrew .


MacPorts

Para instalar Tesseract executar este comando:


sudo port install tesseract
Para instalar todos os dados de linguagem, execute:


sudo port install tesseract-<langcode>
Lista de langcodes disponíveis podem ser encontradas no página tesseract MacPorts .


homebrew

Para instalar Tesseract executar este comando:


brew install tesseract

janelas

Um instalador não oficial para Windows para Tesseract 3.05-dev e Tesseract 4,00-dev está disponível a partir Tesseract na UB Mannheim . Isto inclui as ferramentas de treinamento.


Um instalador para a antiga versão 3.02 está disponível para Windows do nosso Download página. Isso inclui os dados de treinamento Inglês. Se você quiser usar outro idioma, baixar os dados de treinamento apropriado , descompactá-lo usando 7-zip , e copie o arquivo .traineddata para o diretório 'tessdata', provavelmente C:\Program Files\Tesseract OCR\tessdata.


MSYS2

Instalar e atualizar MSYS2. Siga as instruções no


 http://sourceforge.net/p/msys2/wiki/MSYS2%20installation/ 
Abra um prompt de comando MSYS2 (ou os prompts de comando
de 32 bits ou de 64 bits, se você planeja construir 32 bits ou de 64
bits coisas) a partir das entradas do menu Iniciar.


Instalar {32 bits, 64 bits} GCC MinGW-w64:


 pacman -S mingw-w64-{i686,x86_64}-gcc
Instale tesseract-OCR:


 pacman -S mingw-w64-{i686,x86_64}-tesseract-ocr
e os arquivos de dados:


 pacman -S mingw-w64-tesseract-ocr-osd mingw-w64-{i686,x86_64}-tesseract-ocr-eng
E está feito.


(Estas instruções foram copiadas de mensagem por rubenvb em http://stackoverflow.com/questions/29960825/error-during-making-xz-5-2-1-with-mingw-msys )


Cygwin

Versão lançada> = 3,02 de tesseract-ocr fazem parte de 64bit Cygwin


Instrução para instalação cygwin está aqui:
https://cygwin.com/cygwin-ug-net/setup-net.html


Tesseract specific packages to be installed:

tesseract-ocr                           3.04.01-1
tesseract-ocr-eng                       3.04-1
tesseract-training-core                 3.04-1
tesseract-training-eng                  3.04-1
tesseract-training-util                 3.04.01-1

outras plataformas

Tesseract pode funcionar em plataformas mais exóticos também. Você pode tentar compilá-lo você mesmo , ou dar uma olhada na lista de outros projetos usando Tesseract .


correndo Tesseract

Tesseract é um programa de linha de comando, então primeiro abrir um prompt de terminal ou comando. O comando é usado como este:


  tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile...]
uso tão básico para fazer o OCR em uma imagem chamada 'myscan.png' e salvar o resultado em 'out.txt' seria:


  tesseract myscan.png out
Ou para fazer o mesmo com o alemão:


  tesseract myscan.png out -l deu
Ele pode até mesmo ser usado com vários idiomas traineddata de cada vez, por exemplo. Inglês e Alemão:


  tesseract myscan.png out -l eng+deu
Tesseract também inclui um modo hOCR, que produz um arquivo HTML especial com as coordenadas de cada palavra. Isso pode ser usado para criar um PDF pesquisável, usando uma ferramenta como o Hocr2PDF . Para usá-lo, use a opção 'hocr' configuração, como este:


  tesseract myscan.png out hocr
Você também pode criar um PDF pesquisável diretamente de Tesseract (versões> = 3.03):


  tesseract myscan.png out pdf
Mais informações sobre as várias opções estão disponíveis na página de manual Tesseract .


Outras línguas

Tesseract foi treinado para [vários idiomas] ( https://github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc#languages ), para verificar o seu idioma no [repositório Tessdata] ( https://github.com/tesseract-ocr/tessdata ).


Ele também pode ser treinado para suportar outros idiomas e scripts; para mais detalhes veja TrainingTesseract .


Desenvolvimento

Tesseract também pode ser usado em seu próprio projeto, sob os termos da licença Apache 2.0. Ele tem uma API totalmente caracterizado e pode ser compilado para uma variedade de objectivos, incluindo Android e do iPhone. Veja a 3rdParty página para uma amostra do que foi feito com ele. Note-se que ainda há muito poucos projectos 3rdParty Tesseract OCR sendo desenvolvido para Mac , embora existam vários serviços de OCR on-line que pode ser usado no Mac que podem usar Tesseract como seu mecanismo de OCR.


Além disso, é software livre, então se você quiser contribuir e ajudar, por favor! Se você encontrar um bug e consertá-lo sozinho, a melhor coisa a fazer é anexar o patch para o seu relatório de bug na Lista de Problemas


Apoio, suporte

Primeiro leia o Wiki , particularmente a FAQ para ver se o seu problema é abordado lá. Se não, procure o fórum de usuários Tesseract ou o fórum de desenvolvedores Tesseract , e se você ainda não conseguiu encontrar o que você precisa, por favor, pergunte-nos lá.

Nenhum comentário:

Postar um comentário