-
-
Notifications
You must be signed in to change notification settings - Fork 43
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
工具或测评对象的收集 #1
Comments
以 简历解析 简历提取为关键词在github上检索 仅有四处 https://github.com/fellowlong/hbms HTML https://news.ycombinator.com/item?id=13729301 商业软件 http://www.buyu-tech.com/ 因业务需要,试用了几个中文简历解析的效果 http://k18.com.cn: http://youyun.com: http://resumesdk.com: |
我们现在这个简历库就是,稍微一个PDF就读不出,或者乱码,不录入又要被老板问,哎 这个解析引擎涉及到的细节很多,望你们把这个库越建越智能,我们HR也能从机器劳动中解脱出来做更有效的工作和业绩 :) 简历智能解析,如果要达到很好的解析效果,还是需要下大功夫的。倒不是需要多么高深的算法,而是需要处理太多的细节问题,因为每个人的简历格式千差万别,需要不同的处理策略。如何能让成百上千个策略在一个系统中同时工作,而又能保持灵活、高效、精确的处理效果,这很考验工程师的整体设计和算法编码能力。 |
java 开发一枚 公司内部做人才系统 需大量解析简历 目前使用tika 但准确率 不尽人意 公司明确 不接入第三方 希望做过的各位 有什么思路 建议 不吝赐教 得用到更深的NLP技术,分词->词性标注->句法分析->句法依存树生成->语义分析->语义依存树生成->关系实体抽取->知识图谱,最后形成垂直领域的知识图谱,才能一劳永逸的解决问题。当然,我这只是给你提个建议,具体操作非常复杂,还得你亲力亲为呐,祝好! |
简历解析是干啥的? 我们先看看网友们的控诉:
在当前求职布告软件和社交招聘盛行的环境下,每个空缺职位可能有数以百计的申请。HR小姐姐和猎头顾问每天要处理大量简历,为积累更加丰富完善的人才库,必须在前期付出大量手工的、枯燥的、重复的文字处理工作,将来自于各渠道的简历整理为标准格式录入人才库。然后才能对大量简历进行海选评估,初步筛选之后再安排笔试面试以实现公司的人才储备。挑选正确的简历/履历是所有公司的一项关键招聘业务决策。如果在筛选过程中,出现错误的候选人信息或者时间过长可能意味着将会错过合格的求职者,不相匹配的求职者,或者变得缺乏竞争力,使得招聘成本进一步提高。 部分NB的信息化水平较高的企业,应聘者在系统里提交简历的时候,不管你简历是什么格式的,他们都会要求你把所有基本信息都填在正确的textbox里面,然后再提交一个附件。结构化的信息(姓名、年龄、性别、职位、学历、毕业院校、工作时间、所在城市、联系电话等内容)是给HR看的,那个附件是HR筛选过后才会打开的。那如果信息化水平比较低,怎么办,简历解析就是电脑帮你自动的从简历里把结构化的信息挑出来。 一般来讲,不同的候选者和公司所选择的招聘渠道的不同,我们会收到不同类型的简历: 1.1 各大招聘网站上的网页版或网站上提供下载的简历 应聘者在各网站上,包括外部的网站和自己公司的网站,按网站提供的固定模板填写信息,形成网页版或从网页下载的其它格式简历(统称网页版简历)。 针对网页版简历的基础解析技术,各公司准确率不相上下,难度在于针对每一个固定模板做细致的分析,简历解析技术的准确度依赖于勤奋和经验。 1.2 应聘者按照自己的想法和偏好,制作word、pdf、png,甚至是 excel 格式的电子文档简历。 这种简历格式五花八门,由于不是直接以网页代码的模式呈现,且没有相对固定的模板和关键词字段,就给系统识别带来了挑战。对于系统来讲,要寻找规律并进行判断和识别就会有一定的难度,这一类的简历解析无法做到百分百。 1.3 简历文件的格式 1.4 简历中的数据 常规解决思路: 简历解析的技术壁垒可以说是低,任意几个程序员就能做到,也可以说非常高,因为要做到满意的结果非常难。 简历解析系统可以作为一个计算机本科生的毕业设计,也可以是几个教授几年的心血。简单来讲,简历解析属于那种前60%~70%的效果能够快速达到,但是后30%的效果则需要投入比前者多得多的工作。除此之外,若要达到高准确率,还需要有大量的简历库和词典去做支撑。俗话说的好,数据是AI的磨刀石嘛。 在钱和时间二者之间,我们要么寻找靠谱的合作伙伴提供服务,要么撸起袖子自己干。 对于一般的企业来说,在不想多花钱,且简历的量不大且来源有限格式固定,希望能够对技术完全可控的情况下,怎么来自己攒一个工具出来呢? 先看简历类型 原则上我们希望能够分而治之,也就是说先把一份简历分成若干大块(Block),例如基本信息、求职意向、工作经验、教育背景、证书、语言能力、专业技能、兴趣爱好。然后将大块分成若干小块(sub-block),比如不同时间不同公司不同职位的工作经验/项目经验。然后将小块分成若干行(line),再将行分成段(segment)
这里面需要考虑的点有
对于想撸起袖子自己干的少年,这里的建议是:基于纯规则或者基于规则+机器学习。 开源工具参考列表
商业软件的选择
商业软件测评报告 未完待补 |
为解决企业人工筛选电子简历效率低等问题,提出一种简历自动解析及推荐方案.对中文简历中的句子进行分词、词性标注等预处理,表示为特征向量,并利用SVM分类算法将所有句子划分成预定义的六个通用类别,包括个人基本信息、求职意向和工作经历等.利用个人基本信息的词法和语法特征,手工构建规则来实现姓名、性别及联系方式等关键信息抽取;对复杂的工作经历等文本用HMM模型进一步抽取详细信息,从而形成基于规则和统计相结合的简历文本信息抽取方法.考虑企业和求职者双方偏好,提出基于内容的互惠推荐算法(Content-Based Reciprocal Recommender algorithm,CBRR).实验结果表明,整个方案能有效处理电子简历,提高简历筛选效率,辅助企业进行人才招聘. |
捕鱼科技 第一步上传简历文件 POST /PekeUploadJSON ContentType multipart/form-data boundary 第二步 解析简历 Content-Type application/x-www-form-urlencoded step=analyze&&file_name_original=EABFEAEEBEADEAEAEAAEADAEAEBFAEBEEBFAEAFEBBBEBBFEAEAABEAEBAAEBB.pdf 结果在html中的script标签下的 |
https://github.com/tylerlong/sample_resumes
The text was updated successfully, but these errors were encountered: