首页 \ 问答 \ httpclient爬虫怎么获取cookies

httpclient爬虫怎么获取cookies

更新时间:2023-01-15 13:01

最满意答案

类似
from PIL import Image
from tesseract import image_to_string
im=Image.open(r"D:\python\excersice\1234.jpg")
txt=int(image_to_string(im))

print txt
这样
想更好的学习python请关注微信公众号“Python基础教程”!

其他回答

python图片文本识别使用的工具是pil和pytesser。因为他们使用到很多的python库文件,为了避免一个个工具的安装,建议使用pythonxy
pytesser是ocr开源项目的一个模块,在python中导入这个模块即可将图片中的文字转换成文本。pytesser调用了tesseract。当在python中调用pytesser模块时,pytesser又用tesseract识别图片中的文字。pytesser的使用步骤如下:

首先,安装python2.7版本,这个版本比较稳定,建议使用这个版本。
其次,安装pythoncv。
然后,安装pil工具,pytesser的使用需要pil库的支持。
接着下载pytesser
最后,将pytesser解压,这个是免安装的,可以将解压后的文件cut到python安装目录的lib\site-packages下直接使用,比如我的安装目录是:c:\python27\lib\site-packages,同时把这个目录添加到环境变量之中。
完成以上步骤之后,就可以编写图片文本识别的python脚本了。参考脚本如下:
from pytesser import *
import imageenhance
image = image.open('d:\\workspace\\python\\5.png')
#使用imageenhance可以增强图片的识别率
enhancer = imageenhance.contrast(image)
image_enhancer = enhancer.enhance(4)
print image_to_string(image_enhancer)

tesseract是谷歌的一个对图片进行识别的开源框架,免费使用,现在已经支持中文,而且识别率非常高,这里简要来个helloworld级别的认识
下载之后进行安装,不再演示。
在tesseract目录下,有个tesseract.exe文件,主要调用这个执行文件,用cmd运行到这个目录下,在这个目录下同时放置一张需要识别的图片,这里是123.jpg
然后运行:tesseract 123.jpg result
会把123.jpg自动识别并转换为txt文件到result.txt
但是此时中文识别不好
然后找到tessdata目录,把eng.traineddata替换为chi_sim.traineddata,并且把chi_sim.traineddata重命名为eng.traineddata
ok,现在中文识别基本达到90%以上了

相关问答

更多
  • 类似 from PIL import Image from tesseract import image_to_string im=Image.open(r"D:\python\excersice\1234.jpg") txt=int(image_to_string(im)) print txt 这样 想更好的学习python请关注微信公众号“Python基础教程”!
  • 可以,用PyScripter就能很好解决. 不用IDE,windows就在path目录中设置.
  • Python图片文本识别使用的工具是PIL和pytesser。因为他们使用到很多的python库文件,为了避免一个个工具的安装,建议使用pythonxy pytesser是OCR开源项目的一个模块,在Python中导入这个模块即可将图片中的文字转换成文本。pytesser调用了tesseract。当在Python中调用pytesser模块时,pytesser又用tesseract识别图片中的文字。pytesser的使用步骤如下: 首先,安装Python2.7版本,这个版本比较稳定,建议使用这个版本。 其次, ...
  • 对于使用OCR库的Python来说,这听起来很不错。 一个快速的谷歌搜索出现在pytesser上 : PyTesser是Python的光学字符识别模块。 它将图像或图像文件作为输入并输出一个字符串。 PyTesser使用Tesseract OCR引擎 ,将图像转换为可接受的格式,并将Tesseract可执行文件作为外部脚本调用。 Windows可执行文件与Python脚本一起提供。 这些脚本也应该在其他操作系统中运行。 ... 用法示例 >>> from pytesser import * >>> imag ...
  • 为什么不尝试与python示例中相同的东西? Mat img = ... Mat descr; hog.compute(img, descr, ...); float eps = 1e-7f; descr /= sum(descr)[0] + eps; // same as: normalize(descr,descr,1,eps,NORM_L1); sqrt(descr,descr); descr /= norm(descr) + eps; // ... feed to svm why not ...
  • 所以我一直在考虑它,我觉得最好的方法是计算每个blob /字形/字符中的像素数。 这应该真正减少我需要做的测试数量来区分字形。 遗憾的是,我必须对字体非常具体。 该软件只能识别正确的dpi字体,正确的字体和重量等。 它并不理想,我仍然希望看到有更多关于这个东西的人为渲染文本设计OCR; 但它适用于我有限的情况。 So I've been thinking about it and I feel that the best approach will be to count the number of pix ...
  • 由于图像仅包含单个字符且文本未以典型页面格式(双列,单列等)格式化,因此您必须将“TextLayout”参数设置为“Word”,并提供输入ROI : >> r = ocr(img,[91 89 22 37],'TextLayout','Word') r = ocrText with properties: Text: 'F…' CharacterBoundingBoxes: [3x4 double] CharacterConfide ...
  • 稍微不相关的答案,虽然可能符合您的原始目标。 我和tesseract有类似的问题,我也有非常严格的性能要求。 我在SO上找到了这个简单的解决方案,并使用OpenCV制作了简单的识别器。 它归结为在您拥有的非常清晰的图像上找到边界矩形(来自边缘),然后尝试匹配找到的对象与模板。 我相信您的案例中的解决方案既简单又精确,但需要的代码比现在多一些。 我会关注这个问题,因为有了tesseract的工作解决方案会很好。 我的时间有限,但它似乎是一个有效的解决方案: import os import cv2 impor ...
  • 在我看来,这比较“Vuforia Text Recognition”和“OCR”是不正确的。 另一种表达方式是说Vuforia平台具有OCR功能。 使用类似的例子,可以说Adobe Acrobat具有OCR功能。 Vuforia是一个专门的专有平台,能够执行计算机视觉任务,其中一个可以是OCR。 OCR是一个通用术语(独立于供应商),描述了将基于图像的像素数据转换为数字字符的计算过程。 OCR可以使用不同的方法和公式(神经网络,模式匹配,统计等)以不同的方式实现,我相信Vuforia Text Recogn ...
  • 从图像中提取文本时,请尝试查看图像,就好像您试图尽可能清楚地看到文本一样。 我的教授常说:如果人类可以看到它,电脑也可以看到它。 你想要做的基本上是执行基本的预处理算法,如对比度增强,颜色空间转换,如果需要等等。在阈值处理之前你想要获得的是尽可能清晰的图像,其中毫无疑问的是字符和边缘角色和白色背景之间尽可能明显。 您需要尝试阈值操作。 开始时,我建议使用带有轨迹栏的简单固定阈值功能,这样您就不必每次想要更改值时重新运行代码。 你可以在我的GitHub仓库上找到这里的代码。 当然,这只是其中一个步骤。 您仍然 ...

相关文章

更多

最新问答

更多
  • 获取MVC 4使用的DisplayMode后缀(Get the DisplayMode Suffix being used by MVC 4)
  • 如何通过引用返回对象?(How is returning an object by reference possible?)
  • 矩阵如何存储在内存中?(How are matrices stored in memory?)
  • 每个请求的Java新会话?(Java New Session For Each Request?)
  • css:浮动div中重叠的标题h1(css: overlapping headlines h1 in floated divs)
  • 无论图像如何,Caffe预测同一类(Caffe predicts same class regardless of image)
  • xcode语法颜色编码解释?(xcode syntax color coding explained?)
  • 在Access 2010 Runtime中使用Office 2000校对工具(Use Office 2000 proofing tools in Access 2010 Runtime)
  • 从单独的Web主机将图像传输到服务器上(Getting images onto server from separate web host)
  • 从旧版本复制文件并保留它们(旧/新版本)(Copy a file from old revision and keep both of them (old / new revision))
  • 西安哪有PLC可控制编程的培训
  • 在Entity Framework中选择基类(Select base class in Entity Framework)
  • 在Android中出现错误“数据集和渲染器应该不为null,并且应该具有相同数量的系列”(Error “Dataset and renderer should be not null and should have the same number of series” in Android)
  • 电脑二级VF有什么用
  • Datamapper Ruby如何添加Hook方法(Datamapper Ruby How to add Hook Method)
  • 金华英语角.
  • 手机软件如何制作
  • 用于Android webview中图像保存的上下文菜单(Context Menu for Image Saving in an Android webview)
  • 注意:未定义的偏移量:PHP(Notice: Undefined offset: PHP)
  • 如何读R中的大数据集[复制](How to read large dataset in R [duplicate])
  • Unity 5 Heighmap与地形宽度/地形长度的分辨率关系?(Unity 5 Heighmap Resolution relationship to terrain width / terrain length?)
  • 如何通知PipedOutputStream线程写入最后一个字节的PipedInputStream线程?(How to notify PipedInputStream thread that PipedOutputStream thread has written last byte?)
  • python的访问器方法有哪些
  • DeviceNetworkInformation:哪个是哪个?(DeviceNetworkInformation: Which is which?)
  • 在Ruby中对组合进行排序(Sorting a combination in Ruby)
  • 网站开发的流程?
  • 使用Zend Framework 2中的JOIN sql检索数据(Retrieve data using JOIN sql in Zend Framework 2)
  • 条带格式类型格式模式编号无法正常工作(Stripes format type format pattern number not working properly)
  • 透明度错误IE11(Transparency bug IE11)
  • linux的基本操作命令。。。