Ilya Prokin,法国波尔多的开发者
Ilya is available for hire
Hire Ilya

Ilya Prokin

Verified Expert  in Engineering

数据科学开发人员

Location
法国波尔多葡萄酒
至今成员总数
2022年9月7日

Ilya是一名拥有博士学位的数据科学家、首席技术官和人工智能技术企业家. 他是应用数据科学方面的专家, 机器学习, AI, 以及LLM在制造过程中的微调, finance, 生物技术产业. 他发表过科学论文, 将各种mvp扩展为全功能产品, 把创业公司, 并在六个城市建立了强大的人工智能社区. Ilya喜欢用数据来改善业务, 开发应用数据和人工智能的创新方法, 以及对优化的探索.

Portfolio

ImbaMed
大型语言模型(llm),语音到文本,文本到语音(TTS), Python 3...
贷款快照- AI美国抵押贷款
数据科学、Python、亚马逊网络服务(AWS)、谷歌人工智能平台、Docker...
Data Brunch
数据科学,社区,通信,生物学,机器学习...

Experience

Availability

Full-time

首选的环境

Linux, Visual Studio Code (VS Code), Python, Slack

最神奇的...

...我的一部分工作是在风投的支持下建立和退出初创公司, 端到端人工智能产品,并建立一个遍布法国的强大数据科学社区.

Work Experience

文本到语音LLM开发人员

2024 - PRESENT
ImbaMed
  • 开发虚拟语音呼叫销售代理MVP, 包括语音, speech-to-text, 和法学硕士销售逻辑.
  • 使用OpenAI GPT实现销售代理逻辑的自定义开放LLM.
  • 迭代不同的备选TTS解决方案:ElevenLabs, Coqui, Bark, Silero, Piper, Edge TTS, Tortoise, WhisperSpeech, and OpenVoice.
  • 利用更快的耳语语音到文本和耳语x拨号.
Technologies: 大型语言模型(llm),语音到文本,文本到语音(TTS), Python 3, Azure, Docker, Python, 自然语言处理(NLP), Phonemes, GPU Computing, AI Chatbots, Custom Models, SWOT Analysis, 变压器模型, 人工智能模型训练, 面向对象编程(OOP), AI Modeling, Databases, Cloud, Hugging Face, 开源llm, Data, FastAPI, 检索增强生成(RAG), 最小可行产品(MVP), 多通道模型, 语言模型嵌入(ELMo)

数据科学领导者

2021 - PRESENT
贷款快照- AI美国抵押贷款
  • 协调数据科学家和工程师团队. 进行日常站立和项目管理.
  • 向高层领导提供每周报告, 特别是首席技术官, 资本市场总监, and product.
  • 在公司会议演示中推动数据科学部分,并在数据科学计划上实现跨公司合作.
  • 参与战略计划并协调执行工作. 数据团队的营销建议使lead量增加了两倍.
  • 开发定制模型,优化整个销售渠道和二级市场对冲活动的收入和成本关键决策.
  • 利用定制的网络捆绑解决方案从多个在线来源收集数据,并执行竞争对手情报分析.
  • 开发具有独特个性的移情LLM座席,为客户提供个性化服务. 使用OpenAI的GPT-3.5和GPT-4 API和定制llm.
Technologies: 数据科学、Python、亚马逊网络服务(AWS)、谷歌人工智能平台、Docker, Pandas, Scikit-learn, Data Scraping, ETL, 机器学习, 推荐系统, Data Strategy, 数据可视化, Optimization, 线性优化, 统计分析, API集成, OpenAI GPT-4 API, Streamlit, Data Modeling, Forecasting, 亚马逊SageMaker, Classification, 文本分类, Data Pipelines, GPT, Pricing Models, 数据驱动营销, 生成预训练变压器(GPT), OCR, OpenAI GPT-3 API, Tableau, PySpark, 人工智能(AI), Jupyter, AI Programming, Programming, 用户界面(UI), Integration, 语言模型, Data Analysis, 机器学习操作(MLOps), MySQL, 团队的领导, PostgreSQL, 软件架构, 情绪分析, 大型语言模型(llm), 工程数据, 预测建模, 概率论, 预测分析, Frameworks, Data Analytics, 数据操作, Analytics, NumPy, 回归建模, 定量分析, OpenAI, Leadership, APIs, 生成预训练变压器3 (GPT-3), Web Scraping, Research, 生成式人工智能(GenAI), Notion, Data Reporting, Llama 2, 谷歌云平台(GCP), Vertex, Google Cloud, 亚马逊机器学习, 谷歌云机器学习, 提示工程, AI Design, Databricks, Data Mining, Algorithms, Reporting, Selenium, Data Matching, CSV文件处理, Bots, Pricing, 逻辑回归, PEFT, LangChain, LoRa, 应用研究, Fine-tuning, Finance, 谷歌BigQuery, Snowflake, Generative AI, 统计建模, 自然语言处理(NLP), GPU Computing, Elasticsearch, 营销组合建模, Custom Models, AI Research, 变压器模型, 探索性数据分析, 人工智能模型训练, 因果推论, A/B Testing, 面向对象编程(OOP), AI Modeling, 无监督学习, 数据提取, Databases, PDF, Cloud, Statistics, 资本市场, Hugging Face, 开源llm, Data, Multithreading, FastAPI, 可扩展的Web服务, 最小可行产品(MVP), 多通道模型

创始人|社区组织者

2019 - PRESENT
Data Brunch
  • 建立一个强大的数据科学社区,每周开会讨论最先进的数据科学.
  • 发展了一个优秀的数据科学生态系统,并获得了各种深入的专业知识, 包括有成就的研究者, 奥林匹克数学优胜者, and strong, 有竞争力的数据科学家.
  • 与全国各地的专家联系,帮助数据人员找到工作.
Technologies: 数据科学,社区,通信,生物学,机器学习, 推荐系统, 数据可视化, 自然语言处理(NLP), Forecasting, Classification, 文本分类, Data Pipelines, PySpark, 人工智能(AI), CTO, Programming, Data Analysis, SpaCy, 团队的领导, BERT, Custom BERT, 深度强化学习, 预测建模, 概率论, 预测分析, Frameworks, Data Analytics, 数据操作, Analytics, Pandas, Leadership, 内容写, Research, 生成式人工智能(GenAI), Notion, Architecture, 技术写作, Blogging, Data Reporting, AI Design, Algorithms, Selenium, CSV文件处理, LangChain, NLU, 谷歌BigQuery, Generative AI, 统计建模, Python, 文本转语音(TTS), Custom Models, AI Research, 探索性数据分析, 人工智能模型训练, 隆起的建模, OpenCV, AI Modeling, 数据提取, Databases, Statistics, Data, 最小可行产品(MVP)

Data Scrapper & Collector

2023 - 2023
Nixtla Inc.
  • 确定并开发新的数据源:在Internet上搜索提供与业务目标相关的时间序列数据集的可靠数据源.
  • 抓取各种数据源,处理来自各种在线数据源的时间序列数据.
  • 与数据科学家和机器学习工程师密切合作,提供高质量的数据,并为分析和预测建模项目做出贡献.
  • 维护描述数据源的全面文档, 数据转换, 以及在这个过程中遇到的任何挑战.
技术:Python, NumPy, Data Scraping, Pandas, Data Science, 工业物联网(IIoT), 面向对象编程(OOP), 数据提取, Databases, Cloud, Data

NLP机器学习开发人员

2023 - 2023
FirmPilot AI Inc
  • 为开发人员开发产品制定了完整的技术策略和详细的规格, 利用OpenAI的ChatGPT, Google's Bard, PaLM2, 和人类克劳德, 以及定制开放LLM.
  • 研究最先进的技术解决方案并推荐最佳选择, 最大化业务影响.
  • 开发了一种利用对抗性法学硕士培训和微调的创新方法.
技术:人工智能(AI), 自然语言处理(NLP), 机器学习, Python, 支持向量机(SVM), pgvector, ChatGPT, Architecture, 技术写作, Llama 2, 提示工程, AI Design, Algorithms, Reporting, 应用研究, Training, 大型语言模型(llm), Fine-tuning, Generative AI, GPU Computing, 变压器模型, 人工智能模型训练, AI Modeling, PDF, Hugging Face, 开源llm, Data, 可扩展的Web服务, Semantic search, 最小可行产品(MVP), 语言模型嵌入(ELMo)

数据科学驻场创始人

2020 - 2021
企业家首先 & AptaDeep
  • Joined EF, 这是一个竞争激烈的项目,只选择具有顶尖技能的潜在科技创始人, 作为前3%的人.
  • 向驻场创业者和风投合伙人提供每周报告,最终向投资委员会推荐种子期前融资.
  • 开发了全栈MVP SaaS人工智能适配开发平台.
  • 与合适公司的c级高管协调,确保POC/飞行员.
  • 监督商业模式等主题, 金融建模, B2B sales, OKRs, market sizing, 竞争和防御分析, 早期的增长, fundraising, investor decks, 企业经济学, communication, 以及客户开发.
  • 进行在线数据收集,360度分析各种创业和新闻趋势, 利用Python进行数据操作, scraping, data analysis, and modeling.
技术:沟通, Business, 金融建模, 市场机会分析, Data Science, Python, 亚马逊网络服务(AWS), Docker, Pandas, Scikit-learn, Keras, Deep Learning, Websites, Data Scraping, 计算生物学, Biology, Genomics, ETL, 机器学习, PyTorch, TensorFlow, Data Strategy, 数据可视化, Optimization, 统计分析, API集成, Data Modeling, Forecasting, Classification, Data Pipelines, Pricing Models, Tableau, 人工智能(AI), 神经网络, Web Design, Jupyter, CTO, AI Programming, Programming, 用户界面(UI), Integration, Data Analysis, MySQL, 团队的领导, 软件架构, 预测建模, 概率论, 预测分析, Frameworks, Data Analytics, 数据操作, Analytics, NumPy, 回归建模, 定量分析, Leadership, APIs, R&D, 量子计算, 内容写, Research, 生成式人工智能(GenAI), Notion, Architecture, Data Reporting, AI Design, Healthcare, Data Mining, Algorithms, Reporting, 应用研究, 统计建模, SWOT Analysis, 变压器模型, 探索性数据分析, 人工智能模型训练, 面向对象编程(OOP), AI Modeling, 数据提取, Databases, Cloud, Statistics, Data, Graph Databases, Neo4j, 最小可行产品(MVP)

联合创始人| CTO

2019 - 2020
NewsPill (ex-Sysmo)
  • 确保机器学习的股市波动预测应用于抓取的互联网聊天、技术和上下文数据的异常指标.
  • Redesigned a legacy algorithmic trading system; reusable and structured code architecture, best practices, 设计模式.
  • 监督大量数据科学驱动的案例研究,如特朗普情绪预测器(在法国电视上播出).
  • 使用AWS、Docker、Redis、SQL、Python、Flask、Gunicorn、Nginx和GitLab构建基础设施.
  • 构建了一个聊天机器人框架,可以轻松创建基于规则的聊天机器人.
  • 推介创业公司,并帮助获得BPI的融资 & Rockstart AI. 我们的创业公司在BFM商业电视频道(法国彭博社)上做了专题报道。.
技术:数据科学, Time Series, Options, Scraping, 工程数据, 亚马逊网络服务(AWS), Redis, SQL, Flask, Gunicorn, GitLab, Docker, Communication, Fundraising, Chatbots, ETL, 机器学习, Data Strategy, 数据可视化, Optimization, 统计分析, Real-time Data, 自然语言处理(NLP), API集成, Data Modeling, Forecasting, Classification, 文本分类, Data Pipelines, 数据驱动营销, OCR, 人工智能(AI), 神经网络, Web Design, 金融建模, Jupyter, CTO, 聊天机器人对话设计, AI Programming, Programming, 用户界面(UI), Integration, ChatGPT, Data Analysis, 机器学习操作(MLOps), 自然语言工具包(NLTK), MySQL, SpaCy, 团队的领导, PostgreSQL, 软件架构, 情绪分析, TensorFlow, 预测建模, 概率论, 预测分析, Frameworks, Data Analytics, 数据操作, Analytics, Data Scraping, Pandas, NumPy, 回归建模, 定量分析, Leadership, APIs, R&D, Web Scraping, 内容写, Research, Architecture, 技术写作, Data Reporting, 亚马逊机器学习, AI Design, Data Mining, Algorithms, Reporting, 回测交易策略, Trading, Selenium, Data Matching, CSV文件处理, Bots, 逻辑回归, 应用研究, NLU, Futures & Options, Finance, 定量研究, 统计建模, Python, AI Chatbots, Custom Models, SWOT Analysis, AI Research, 探索性数据分析, 人工智能模型训练, A/B Testing, 面向对象编程(OOP), AI Modeling, 信号处理, 无监督学习, 数据提取, Databases, PDF, Cloud, 定量金融学, Statistics, 资本市场, Data, Multithreading, 可扩展的Web服务, 最小可行产品(MVP)

高级数据科学家

2018 - 2019
面向制造业的Dataswati AI
  • 针对不确定量化的非均匀采样时间序列,为法国大型制造商建立了预测模型.
  • 构建各种自动化数据管道,从原始数据到基于交叉验证的自动特征生成和选择,再到预测.
  • 集成SOTA深度学习:CNN, LSTM,自编码器,迁移学习.
  • 通过在媒体上发表博客,担任技术布道者.com, 聚会上的演讲, 并与法国计算机科学与自动化研究所(Inria)合作.
  • 通过微分进化优化定制算法实现, 政体变化的因果模型, 基于Wasserstein距离的异常检测, 提出了一种新的多域迁移学习方法.
  • 从不同的在线来源收集和抓取数据,以智能地增强数据,并通过必要的外部数据增强机器学习模型.
技术:深度学习, 时间序列分析, 卷积神经网络(CNN), LSTM, ETL, 机器学习, PyTorch, TensorFlow, Azure, Time Series, 数据可视化, Optimization, 线性优化, 统计分析, API集成, Data Modeling, Forecasting, Classification, 文本分类, Data Pipelines, OCR, 人工智能(AI), 神经网络, Jupyter, AI Programming, Programming, 用户界面(UI), Integration, Data Analysis, 自然语言工具包(NLTK), MySQL, 软件架构, 计算机视觉, 图像处理, Image Analysis, 深度强化学习, 预测建模, 概率论, 预测分析, Frameworks, Data Analytics, 数据操作, Analytics, Data Scraping, Pandas, NumPy, 回归建模, 定量分析, APIs, 生成对抗网络(GANs), R&D, Web Scraping, 内容写, Research, 技术写作, Blogging, Data Reporting, 谷歌云平台(GCP), Google Cloud, AI Design, Data Mining, Algorithms, Reporting, Selenium, Data Matching, CSV文件处理, Pricing, 逻辑回归, 应用研究, Fine-tuning, 统计建模, Python, GPU Computing, Custom Models, SWOT Analysis, AI Research, 探索性数据分析, 人工智能模型训练, 因果推论, 隆起的建模, A/B Testing, OpenCV, 工业物联网(IIoT), 面向对象编程(OOP), AI Modeling, 信号处理, 无监督学习, 数据提取, Databases, PDF, Cloud, Statistics, Data

计算生物学和神经科学研究员

2013 - 2017
Inria
  • 开发了一个数据驱动的生物神经元如何使用各种数据集学习的模型, data cleaning, parsing, transformation, and modeling. 对微分方程进行数值模拟、优化和灵敏度分析.
  • 在《欧博体育app下载》、《欧博体育app下载》、《欧博体育app下载》等顶级期刊发表5篇科学论文.
  • 使用Python进行数据分析(NumPy, SciPy, Pandas, scikit-learn, matplotlib等).)和数值优化(PyGMO). 重新设计计算模块以使用Python的F2PY(比Python + SciPy + NumPy快100倍).
技术:Python, Pandas, Scikit-learn, F2PY, 敏感性分析, Data Cleaning, 数值优化, Writing & Editing, Science, Matplotlib, 机器学习, 时间序列分析, 数据可视化, Optimization, 线性优化, 统计分析, Data Modeling, Forecasting, Classification, Data Pipelines, 神经网络, Web Design, Jupyter, Programming, Data Analysis, 自然语言工具包(NLTK), MySQL, 图像处理, Image Analysis, 深度强化学习, 预测建模, 概率论, 预测分析, Data Analytics, 数据操作, Analytics, Data Scraping, NumPy, 回归建模, 定量分析, R&D, 内容写, Research, 技术写作, Blogging, Data Reporting, Healthcare, Data Mining, Algorithms, Reporting, Data Matching, CSV文件处理, 逻辑回归, 应用研究, 统计建模, Custom Models, AI Research, 探索性数据分析, 人工智能模型训练, A/B Testing, State Machines, AI Modeling, 信号处理, 无监督学习, 数据提取, Statistics, Data, Multithreading

三维重建和计算机视觉工程师

2012 - 2012
Riken
  • 开发了双光子显微镜图像的计算机视觉算法.
  • 架构3D重建算法从堆栈的双光子显微镜图像.
  • 与研究人员和管理人员合作,调整软件并使其适应各种用例.
技术:三维重建,点云数据,点云,探索性数据分析,数据

特朗普情绪预测器

一个有趣的网络应用,可以预测下一条小特推特的情绪.

在我的第一次创业中,它被用作一种营销工具,并证明了情绪分析对股市的作用. 众所周知,市场是由所谓的恐惧和贪婪的动物精神驱动的. 在特朗普担任总统期间, 他的行动和推文正在影响市场,并波及整个经济. 我们构建这个web应用程序是为了说明一些用于预测股市波动的非结构化数据处理和建模技术.

AptaDeep

开发结合分子和人工智能的SaaS平台的POC,用适配体代替昂贵的抗体,用于人工智能药物发现初创公司. 人工智能预测合适的属性,并有助于:
•开发10倍更好的适配体(亲和力,特异性,稳定性或构象变化)
•优化预selex, SELEX, post-SELEX, 以及适配体的后期制作, 以及自定义非selex进程

DeepProPhoto

DeepProPhoto是一款人工智能工具,可以在一分钟内将普通照片转换为专业照片. 这个应用程序可以帮助用户提高专业知名度,找到一份理想的工作,同时节省金钱和时间.

在这个项目中,我做了后前端、AI模型训练、数据抓取等工作.

PsyTrainer

http://t.me/psychotrainerbot
释放你的全部沟通潜力与PsyTrainer,你的个人人工智能心理学家. 由OpenAI的技术和Falcon 7B LLM精心调整的真实心理学家-客户对话雕刻而成.

我为全栈AI开发做出了贡献. 使用的技术是Telegram, Python, SQL, Metabase仪表板, Heroku/AWS, and Falcon, 与LoRa进行了微调, OpenAI's tech.

心理训练师——进化你的对话, 改变你的信念, 释放你的潜力, 展现沟通的力量.

儿童个性化书籍

我重新定义了个性化的儿童书籍, 通过人工智能驱动的内容创作,将定制化提升到新的高度. 从Wonderbly等平台汲取灵感.我利用先进的技术堆栈来提供无与伦比的体验.

CONTRIBUTIONS
•全栈开发:我使用它来确保无缝的用户体验.
•云基础设施:我依靠AWS实现可扩展性和可靠性.
•ai内容创作:我使用了Python, PyTorch, TensorFlow, spaCy, 以及用于人工智能驱动的文本和插图生成的scikit-learn.
•数据洞察:Metabase促进数据可视化和商业智能.
•营销:谷歌广告增强了客户拓展的营销策略.

重要的改进
•AI插图:AI生成的个性化, 迷人的插图-你的孩子放在书里.
•人工智能生成文本:NLP模型精心制作引人入胜的教育叙事.
•推荐:ML算法提供量身定制的图书建议.
2013 - 2016

Ph.D. 计算机科学

Inria Rhône-Alpes︱INSA -法国里昂

2009 - 2013

物理学硕士学位

下诺夫哥罗德大学-下诺夫哥罗德,俄罗斯

Libraries/APIs

Pandas, Scikit-learn, 自然语言工具包(NLTK), PyTorch, TensorFlow, SpaCy, NumPy, OpenCV, PySpark, LSTM, Keras, Matplotlib

Tools

Jupyter, ChatGPT, Notion, 亚马逊SageMaker, Tableau, Slack, MATLAB, GitLab, 谷歌人工智能平台, AWS CLI

Frameworks

硒,流光,烧瓶

Languages

Python, SQL, R, Snowflake, c++, Python 3

Paradigms

数据科学、ETL、定量研究、面向对象编程(OOP)

Platforms

亚马逊网络服务(AWS), Docker, 谷歌云平台(GCP), Databricks, Azure, Linux, Visual Studio Code (VS Code), Heroku

Storage

Data Pipelines, MySQL, PostgreSQL, Google Cloud, Databases, Graph Databases, Neo4j, Redis, Elasticsearch

行业专业知识

医疗保健、网页设计

Other

Optimization, Data Cleaning, 科学计算, Science, Deep Learning, 时间序列分析, Time Series, Chatbots, Data Scraping, Research, 机器学习, Data Analysis, 数据可视化, 计算生物学, Data Analytics, 人工智能(AI), Data Reporting, 线性优化, 统计分析, 自然语言处理(NLP), API集成, OpenAI GPT-4 API, Data Modeling, Forecasting, Classification, 文本分类, 生成预训练变压器(GPT), OpenAI GPT-3 API, 神经网络, CTO, 聊天机器人对话设计, AI Programming, Programming, 用户界面(UI), Integration, 机器学习操作(MLOps), 语言模型, 团队的领导, 软件架构, 计算机视觉, 情绪分析, BERT, 图像处理, Image Analysis, 大型语言模型(llm), 深度强化学习, 预测建模, 概率论, 预测分析, Frameworks, 数据操作, Analytics, 回归建模, 定量分析, OpenAI, APIs, 生成预训练变压器3 (GPT-3), 生成对抗网络(GANs), R&D, 生成式人工智能(GenAI), Architecture, 技术写作, Blogging, Llama 2, Vertex, 亚马逊机器学习, 谷歌云机器学习, 提示工程, AI Design, Data Mining, Algorithms, Reporting, 回测交易策略, Trading, Data Matching, CSV文件处理, Bots, Pricing, 逻辑回归, PEFT, LangChain, LoRa, 应用研究, NLU, Fine-tuning, Training, Generative AI, Elementor, 文本转语音(TTS), 统计建模, Speech to Text, GPU Computing, 营销组合建模, AI Chatbots, Custom Models, 图像生成, SWOT Analysis, AI Research, Text to Image, 点云数据, Point Clouds, 变压器模型, 探索性数据分析, 人工智能模型训练, 因果推论, 隆起的建模, A/B Testing, 工业物联网(IIoT), AI Modeling, 信号处理, 无监督学习, 数据提取, PDF, Cloud, 定量金融学, Statistics, 资本市场, Hugging Face, 开源llm, Data, Multithreading, FastAPI, 检索增强生成(RAG), 可扩展的Web服务, 最小可行产品(MVP), 多通道模型, 语言模型嵌入(ELMo), 卷积神经网络(CNN), 工程数据, 金融建模, Biology, Genomics, 推荐系统, Data Strategy, Dashboards, Web Scraping, Real-time Data, PDF Scraping, GPT, Pricing Models, 数据驱动营销, OCR, Metabase, Custom BERT, Leadership, 内容写, Futures & Options, Finance, 谷歌BigQuery, Phonemes, eCommerce, State Machines, Semantic search, Physics, 三维重建, F2PY, 敏感性分析, 数值优化, Options, Scraping, Gunicorn, Communication, Fundraising, Community, Business, 市场机会分析, Websites, Writing & 编辑,电报机器人,谷歌广告,量子计算,支持向量机(SVM), pgvector

有效的合作

如何使用Toptal

在数小时内,而不是数周或数月,我们的网络将为您直接匹配全球行业专家.

1

分享你的需求

在与Toptal领域专家的电话中讨论您的需求并细化您的范围.
2

选择你的才能

在24小时内获得专业匹配人才的简短列表,以进行审查,面试和选择.
3

开始你的无风险人才试验

与你选择的人才一起工作,试用最多两周. 只有当你决定雇佣他们时才付钱.

对顶尖人才的需求很大.

Start hiring