Data Science notebook 의 Conda Environment 세팅
Data Science notebook session 에서 Data Flow Spark Cluster 생성 요청
Data Flow 의 Data Source 인 Object Storage 의 CSV 파일을 SQL 로 쿼리
OCI Document Understanding 서비스는 기존 AI Vision의 Document 관련 기능이 별도의 서비스로 런칭되었습니다.
Document Understanding은 개발자가 API와 명령줄 인터페이스 툴을 통해 문서 파일에서 텍스트, 테이블 등 주요 데이터를 추출할 수 있는 AI 서비스입니다. Document Understanding을 사용하면 사전 구축된 AI 모델로 반복적이고 지루한 업무 처리 작업을 자동화하고 업무별 요구에 맞게 문서 추출을 사용자 지정할 수 있습니다. Document Understanding 서비스에서는 아래와 같이 사전 훈련된 모델이 지원됩니다:
기존 AI Vision 서비스와 동일하게 현재는 영어만 공식적으로 지원하고 있습니다. 그 외의 제한사항은 아래 테이블을 참조하세요
Limit | Limit Value |
---|---|
Accepted File Formats | JPEG, PNG, PDF, and TIFF |
Maximum File Size | 500 MB per document |
Maximum Document Count (Console) | Single request of five pages or fewer, and of no more than 8 MB in size. |
Maximum Document Count (API) |
|
Minimum Resolution | 32 x 32 pixels |
Maximum Resolution | 10,000 x 10,000 pixels |
Text Alignment | Text can be text aligned horizontally within the document. Vertical text alignment within the document isn’t supported. |
Languages | OCR supports English. |
Character Size | The minimum height for text to be detected is 15 pixels. At 150 DPI, the height is the same as eight-point font. |
Character Type | Handwritten character and printed character recognition are supported. |
Characters |
|
Maximum Number of Asynchronous Jobs in Pending State Allowed in a Tenancy | 200 |
Maximum Number of Asynchronous Transactions Allowed per Minute in a Tenancy | 300 |
Data Labeling 서비스에서 데이터 셋 생성 (Document Labeling, Key-Value 선택)
Datasets의 Label 추가 (Key값)
생성된 레코드 라벨링 (Value 텍스트를 먼저 선택하고 우측에서 라벨 선택함)
모든 Label에 대한 텍스트를 라벨링하면 Summary 섹션에서 결과 확인할 수 있음
이 글은 개인적으로 얻은 지식과 경험을 작성한 글로 내용에 오류가 있을 수 있습니다. 또한 글 속의 의견은 개인적인 의견으로 특정 회사를 대변하지 않습니다.
Younghwan Cho RELEASE-NOTES-2022-AIML
oci-release-notes-2022 nov-2022 AI/ML