Tesseract é um open source Reconhecimento Óptico de Caracteres (OCR) Motor, disponível sob a licença Apache 2.0. Ele pode ser usado diretamente, ou (para programadores) usando uma API para extrair digitado, manuscrito ou impresso texto a partir de imagens. Ele suporta uma ampla variedade de idiomas.
Não Tesseract não tem uma interface gráfica embutida, mas há vários disponíveis a partir do 3rdParty página.
Instalação
Há duas partes a instalar, o próprio motor, e os dados de treinamento para um idioma.Linux
Tesseract é acessível directamente a partir de muitas distribuições Linux. O pacote é geralmente chamado de 'tesseract' ou 'tesseract-ocr' - Pesquisar repositórios de sua distribuição para encontrá-lo. Ospacotes também estão geralmente disponíveis para os dados de formação
linguística (procurar os repositórios), mas se não você vai precisar
fazer o download dos dados de formação adequados ( = <3.02 ou o mais tardar a partir github.com ), descompactá-lo e copiar o arquivo .traineddata em o diretório 'tessdata', provavelmente
/usr/share/tesseract-ocr/tessdata
ou /usr/share/tessdata
.Se Tesseract não está disponível para a sua distribuição,
ou se você quiser usar uma versão mais recente do que eles oferecem,
você pode compilar seu próprio . Note que as versões mais antigas do Tesseract só apoiou processamento .tiff arquivos.
Mac OS X
Você pode instalar Tesseract usando MacPorts ou Homebrew .MacPorts
Para instalar Tesseract executar este comando:sudo port install tesseract
Para instalar todos os dados de linguagem, execute:sudo port install tesseract-<langcode>
Lista de langcodes disponíveis podem ser encontradas no página tesseract MacPorts .homebrew
Para instalar Tesseract executar este comando:brew install tesseract
janelas
Um instalador não oficial para Windows para Tesseract 3.05-dev e Tesseract 4,00-dev está disponível a partir Tesseract na UB Mannheim . Isto inclui as ferramentas de treinamento.Um instalador para a antiga versão 3.02 está disponível para Windows do nosso Download página. Isso inclui os dados de treinamento Inglês. Se você quiser usar outro idioma, baixar os dados de treinamento apropriado , descompactá-lo usando 7-zip , e copie o arquivo .traineddata para o diretório 'tessdata', provavelmente
C:\Program Files\Tesseract OCR\tessdata
.MSYS2
Instalar e atualizar MSYS2. Siga as instruções no http://sourceforge.net/p/msys2/wiki/MSYS2%20installation/
Abra um prompt de comando MSYS2 (ou os prompts de comandode 32 bits ou de 64 bits, se você planeja construir 32 bits ou de 64
bits coisas) a partir das entradas do menu Iniciar.
Instalar {32 bits, 64 bits} GCC MinGW-w64:
pacman -S mingw-w64-{i686,x86_64}-gcc
Instale tesseract-OCR: pacman -S mingw-w64-{i686,x86_64}-tesseract-ocr
e os arquivos de dados: pacman -S mingw-w64-tesseract-ocr-osd mingw-w64-{i686,x86_64}-tesseract-ocr-eng
E está feito.(Estas instruções foram copiadas de mensagem por rubenvb em http://stackoverflow.com/questions/29960825/error-during-making-xz-5-2-1-with-mingw-msys )
Cygwin
Versão lançada> = 3,02 de tesseract-ocr fazem parte de 64bit CygwinInstrução para instalação cygwin está aqui:
https://cygwin.com/cygwin-ug-net/setup-net.html
Tesseract specific packages to be installed:
tesseract-ocr 3.04.01-1
tesseract-ocr-eng 3.04-1
tesseract-training-core 3.04-1
tesseract-training-eng 3.04-1
tesseract-training-util 3.04.01-1
outras plataformas
Tesseract pode funcionar em plataformas mais exóticos também. Você pode tentar compilá-lo você mesmo , ou dar uma olhada na lista de outros projetos usando Tesseract .correndo Tesseract
Tesseract é um programa de linha de comando, então primeiro abrir um prompt de terminal ou comando. O comando é usado como este: tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile...]
uso tão básico para fazer o OCR em uma imagem chamada 'myscan.png' e salvar o resultado em 'out.txt' seria: tesseract myscan.png out
Ou para fazer o mesmo com o alemão: tesseract myscan.png out -l deu
Ele pode até mesmo ser usado com vários idiomas traineddata de cada vez, por exemplo. Inglês e Alemão: tesseract myscan.png out -l eng+deu
Tesseract também inclui um modo hOCR, que produz um arquivo HTML especial com as coordenadas de cada palavra. Isso pode ser usado para criar um PDF pesquisável, usando uma ferramenta como o Hocr2PDF . Para usá-lo, use a opção 'hocr' configuração, como este: tesseract myscan.png out hocr
Você também pode criar um PDF pesquisável diretamente de Tesseract (versões> = 3.03): tesseract myscan.png out pdf
Mais informações sobre as várias opções estão disponíveis na página de manual Tesseract .Outras línguas
Tesseract foi treinado para [vários idiomas] ( https://github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc#languages ), para verificar o seu idioma no [repositório Tessdata] ( https://github.com/tesseract-ocr/tessdata ).Ele também pode ser treinado para suportar outros idiomas e scripts; para mais detalhes veja TrainingTesseract .
Desenvolvimento
Tesseract também pode ser usado em seu próprio projeto, sob os termos da licença Apache 2.0. Ele tem uma API totalmente caracterizado e pode ser compilado para uma variedade de objectivos, incluindo Android e do iPhone. Veja a 3rdParty página para uma amostra do que foi feito com ele. Note-se que ainda há muito poucos projectos 3rdParty Tesseract OCR sendo desenvolvido para Mac , embora existam vários serviços de OCR on-line que pode ser usado no Mac que podem usar Tesseract como seu mecanismo de OCR.Além disso, é software livre, então se você quiser contribuir e ajudar, por favor! Se você encontrar um bug e consertá-lo sozinho, a melhor coisa a fazer é anexar o patch para o seu relatório de bug na Lista de Problemas
Nenhum comentário:
Postar um comentário